Comment extraire du texte à partir de PDF numérisés dans .NET en utilisant Aspose.OCR
Les PDF scannés sont souvent difficiles à manipuler car ils ne sont essentiellement que des images de texte. Convertir ces images en documents texte consultables et modifiables ouvre un monde de possibilités pour la gestion des documents et l’accessibilité du contenu. Avec Aspose.OCR pour .NET, vous pouvez convertir des PDF scannés en documents entièrement consultables tout en préservant les images originales.
Pourquoi la reconnaissance optique de caractères (OCR) est-elle importante pour les PDF scannés ?
- Extraction de données :
- L’OCR vous permet de convertir le texte scanné en données lisibles par machine, qui peuvent être modifiées et indexées.
- Consultabilité :
- En convertissant des PDF scannés en documents consultables, vous pouvez rapidement trouver des informations pertinentes sans avoir à chercher manuellement à travers les pages.
- Productivité améliorée :
- Gagnez du temps en automatisant la conversion de documents scannés en formats modifiables comme Word ou Excel.
Prérequis : Configuration pour l’extraction de texte à partir de PDF scannés
Avant de commencer à extraire du texte de vos PDF scannés, assurez-vous que les étapes suivantes sont complètes :
- Installer Aspose.OCR pour .NET :
- Ajoutez Aspose.OCR à votre projet en utilisant NuGet :
dotnet add package Aspose.OCR
- Ajoutez Aspose.OCR à votre projet en utilisant NuGet :
- Obtenir une licence à consommation :
- Configurez votre licence à consommation pour débloquer toutes les fonctionnalités de la bibliothèque Aspose.OCR en utilisant
SetMeteredKey()
.
- Configurez votre licence à consommation pour débloquer toutes les fonctionnalités de la bibliothèque Aspose.OCR en utilisant
- Préparer vos PDF scannés :
- Assurez-vous que vos PDF scannés sont de haute qualité. Une meilleure qualité donne des résultats OCR plus précis.
Guide étape par étape : Extraction de texte à partir de PDF scannés
Étape 1 : Installer la bibliothèque requise
Commencez par installer Aspose.OCR pour .NET dans votre projet. Vous pouvez le faire directement depuis NuGet.
dotnet add package Aspose.OCR
Étape 2 : Configurer vos clés de licence
Avant de continuer, configurez votre licence pour Aspose.OCR afin de débloquer toutes les fonctionnalités.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<votre clé publique>", "<votre clé privée>");
Console.WriteLine("Licence configurée avec succès.");
Étape 3 : Charger le PDF scanné dans l’objet d’entrée OCR
Vous devrez charger le PDF scanné dans l’objet OcrInput
. Aspose.OCR prend en charge le scan de plusieurs pages d’un PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Traiter les 3 premières pages du PDF
Console.WriteLine("PDF scanné chargé avec succès.");
Étape 4 : Traiter le PDF scanné à l’aide du moteur OCR
Une fois le PDF chargé, passez-le au moteur Aspose OCR pour la reconnaissance.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Définir la langue OCR (par exemple, Latin pour l'anglais)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Texte extrait du PDF.");
Étape 5 : Sortir le texte reconnu ou l’enregistrer
Une fois que le moteur OCR a traité le PDF, vous pouvez soit afficher le texte reconnu directement, soit l’enregistrer dans un fichier.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Texte reconnu : {recognizedText}");
// Enregistrer le résultat dans un fichier texte
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Texte reconnu enregistré dans output.txt.");
Étape 6 : Tester et optimiser les résultats de l’OCR
Après avoir extrait le texte, testez la sortie pour en vérifier l’exactitude. Si nécessaire, vous pouvez ajuster les paramètres OCR pour améliorer les résultats pour différents formats de documents.
Problèmes courants et solutions
1. Précision OCR médiocre
- Solution : Assurez-vous que la qualité du PDF scanné est élevée. Utilisez des scans haute résolution pour améliorer la précision de la reconnaissance.
2. Polices non prises en charge
- Solution : Fournissez le paramètre de langue correct dans les options OCR pour améliorer la reconnaissance des caractères non latins.
3. Performances lentes
- Solution : Divisez le PDF en morceaux ou en pages plus petites pour un traitement plus rapide, surtout pour les grands documents.