Comment extraire le texte des PDF scanés dans .NET en utilisant Aspose.OCR

Comment extraire le texte des PDF scanés dans .NET en utilisant Aspose.OCR

Les PDF scanés sont souvent difficiles à travailler avec parce qu’ils sont essentiellement des images de texte.Convertir ces images en documents de texte recherchables, édicables ouvre un monde de possibilités pour la gestion de documents et l’accessibilité du contenu. Avec Aspose.OCR pour .NET, vous pouvez convertir les PDF scanés en documents entièrement recherchables tout en conservant les images originales.

Pourquoi la reconnaissance des caractères optiques (OCR) est importante pour les PDF scanés

  • Extraction de données:- OCR vous permet de convertir le texte scanné en données lisibles par machine, qui peuvent être éditées et indexées.

  • La capacité de recherche:- En convertisant les PDF scannés en documents recherchables, vous pouvez rapidement trouver des informations pertinentes sans rechercher manuellement à travers les pages.

  • Amélioration de la productivité:- Économisez le temps en automatisant la conversion des documents scannés en formats édifiables tels que Word ou Excel.

Principaux critères: Configuration pour l’extraction de texte PDF scanée

Avant de commencer à extraire le texte de vos PDF scannés, assurez-vous que les étapes suivantes sont complètes:

  • Installez Aspose.OCR pour .NET:- Ajoutez Aspose.OCR à votre projet en utilisant NuGet : dotnet add package Aspose.OCR

  • Obtenez une Licence Métriée:- Configurez votre licence mesurée pour désactiver toutes les fonctionnalités de la bibliothèque Aspose.OCR en utilisant SetMeteredKey().

  • Préparez vos PDF scanés:- Assurez-vous que vos PDF scannés sont de haute qualité. meilleurs résultats de qualité dans des OCR plus précis.

Guide étape par étape : extraire le texte des PDF scanés

Étape 1 : Installer la bibliothèque requise

Commencez par l’installation Aspose.OCR pour .NET dans votre projet. Vous pouvez le faire directement à partir de NuGet.

dotnet add package Aspose.OCR

Étape 2 : Configurez vos clés de licence

Avant de procéder, configurez votre licence pour Aspose.OCR pour désactiver toutes les fonctionnalités.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Étape 3 : Téléchargez le PDF scané dans l’objet d’entrée OCR

Vous aurez besoin de télécharger le PDF scanné dans le OcrInput Objet. Aspose.OCR soutient le scan de plusieurs pages d’un PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Étape 4 : Traiter le PDF scané avec le moteur OCR

Avec le PDF chargé, passez-le au moteur Aspose OCR pour la reconnaissance.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Étape 5 : Sortir le texte reconnu ou le sauvegarder

Une fois que le moteur OCR traite le PDF, vous pouvez soit extraire le texte reconnu directement ou le sauvegarder dans un fichier.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Étape 6 : Tester et optimiser les résultats OCR

Après l’extraction du texte, vérifiez la sortie pour l’exactitude.Si nécessaire, vous pouvez tweak les paramètres de l’OCR pour améliorer les résultats pour différents layouts de documents.

Problèmes communs et fixations

1 La faible précision de l’OCR

  • Solution: Assurez-vous que la qualité du PDF scanné est élevée.Utilisez des scans de haute résolution pour améliorer l’exactitude de la reconnaissance.

2 - Fonts non soutenus

  • Solution: Fournir la configuration linguistique correcte dans les options OCR pour améliorer la reconnaissance des caractères non latins.

3 – Performance lente

  • Solution: Couper le PDF en petits morceaux ou pages pour un traitement plus rapide, en particulier pour les grands documents.
 Français