Comment extraire le texte des PDF scanés avec Aspose.OCR
Extrait de texte à partir de fichiers PDF scannés ou basés sur l’image utilisés pour exiger des flux de travail complexes ou du travail manuel coûteux. Avec Aspose.OCR Scanned PDF to Text for .NET, vous pouvez automatiser ce processus, convertissant les PDF en texte recherchable et modifiable avec seulement quelques lignes de code.
Problème du monde réel
Les organisations reçoivent souvent des contrats, des rapports ou des archives comme des PDF scannés. Copier manuellement le texte ou la recherche à l’intérieur de ces documents est aveugle et erroné, ralentissant les projets de conformité, d’archivage et de transformation numérique.
Vue de la solution
Aspose.OCR pour .NET vous permet de traiter les PDF scannés – en les transformant en textes ou en PDF recherchables, en rendant les informations accessibles, indexables et prêtes pour les flux de travail numériques.
Principaux
Avant de commencer, assurez-vous que vous avez :
- Visual Studio 2019 ou ultérieur
- .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
- Aspose.OCR pour .NET de NuGet
- Les connaissances C#
PM> Install-Package Aspose.OCR
La mise en œuvre étape par étape
Étape 1 : Installer et configurer Aspose.OCR
Ajouter le paquet NuGet et référence Aspose.OCR :
using Aspose.OCR;
Étape 2 : Ajouter vos fichiers PDF scanés
Créez un objet OcrInput pour l’entrée PDF et ajoutez vos fichiers PDF scannés.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Étape 3 : Configurer les paramètres de reconnaissance
Configurez la langue et d’autres paramètres de reconnaissance pour correspondre à vos documents.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Étape 4 : Démarrer le processus de reconnaissance
Reconnaître le texte de vos PDF scannés :
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Étape 5 : Enregistrer ou exporter un texte reconnu
Exporter le texte reconnu dans les fichiers, ou convertir les résultats en PDFs recherchables.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Étape 6 : Ajoutez le traitement des erreurs
Développer la reconnaissance dans un bloc de tentative/catch pour la robustesse.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Étape 7 : Optimiser pour les PDF de grande ou multi-page
- Traiter PDFs page par page pour les fichiers énormes
- Utilisez des scans de haute qualité pour obtenir les meilleurs résultats
- Processus de batch en parallèle pour de grandes collections
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Étape 8: Exemple de travail complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utiliser les cas et les applications
Archives numériques
Convertir des bibliothèques entières de documents scannés en fichiers recherchables, indexables pour la conformité et la gestion des connaissances.
Gestion juridique et contractuelle
Extrait des clauses contractuelles ou des termes de PDF pour la révision, l’automatisation ou la signature numérique.
Recherche de document Streamline
Permettre une recherche rapide de texte complet dans les archives, les bases de connaissances ou les fichiers de cas.
Défis communs et solutions
Défi 1 : Scans de faible qualité ou de mauvaise qualité
Résolution: Utilisez des filtres pré-processifs et des scans de haute qualité lorsque cela est possible.
Défi 2 : PDF de plusieurs langues
Solution: Configurez la langue dans les paramètres de reconnaissance ou le processus avec plusieurs options linguistiques.
Défi 3 : Des fichiers PDF très grands
Résolution: Traitement en lots ou par page, et surveillance de l’utilisation de la mémoire.
Considérations de performance
- Utiliser un DPI optimal (300+) pour les PDF scannés
- Le processus Batch pour la meilleure transmission
- Déposer des objets OCR et des fichiers fermés
Migliori pratiche
- Valider la production OCR avant une automation ultérieure
- Organiser et sauvegarder les fichiers PDF originaux
- Utilisez le bon SaveFormat pour votre flux de travail
- Actualiser régulièrement Aspose.OCR pour de nouvelles fonctionnalités PDF
Scénarios avancés
Scénario 1 : extraire uniquement des pages spécifiques d’un PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scénario 2: Exportation à plusieurs formats
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Conclusion
Aspose.OCR pour .NET vous permet de convertir les PDF scannés en textes activables et en fichiers recherchables – en éliminant l’entrée manuelle et rendant les informations accessibles à votre organisation entière.
Pour plus de détails et d’exemples, voir le Aspose.OCR pour la référence API .NET .