Comment convertir les PDF scanés en documents de texte recherchables dans .NET

Les PDF scanés sont généralement des fichiers non-éditables, basés sur l’image, ce qui rend difficile d’extraire du texte d’eux. Cependant, avec Aspose.OCR pour .NET, vous pouvez rapidement transformer ces PDF scanés en documents texte éditables, recherchables qui rendent la récupération des données et la gestion des documents beaucoup plus faciles.

Pourquoi faut-il convertir les PDF scanés en textes recherchables ?

Accessibilité accrue:- Les PDF scanés peuvent être convertis en texte qui est recherchable et modifiable, ce qui permet une meilleure accessibilité au contenu.
Les données de l’organisation:- Une fois converti, le texte peut être organisé, manipulé et réutilisé dans différents formats tels que Word, Excel ou texte plain.
Réservation de contenu:- Aspose.OCR assure que les images et le layout originaux sont conservés pendant que le texte est extrait, vous donnant aussi bien le contenu que le contexte.

Principaux critères : être prêt pour la conversion PDF scanée

Avant de commencer le processus d’extraction du texte des PDF scannés, assurez-vous que:

Installez Aspose.OCR pour .NET:- Installez la bibliothèque nécessaire en utilisant NuGet avec le commandement: dotnet add package Aspose.OCR
Configuration de licence:- Obtenir et configurer une licence mesurée en utilisant le SetMeteredKey() Une méthode pour déverrouiller toutes les fonctionnalités.
Préparez vos PDF scanés:- Assurez-vous que vos PDF scannés sont de bonne qualité (300 DPI ou plus) pour les meilleurs résultats OCR.

Guide étape par étape pour convertir les PDF scanés en texte

Étape 1 : Configurez votre licence

Commencez par configurer votre licence Aspose.OCR pour assurer un accès complet aux fonctionnalités.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Étape 2 : Téléchargez le PDF scané dans l’objet d’entrée OCR

Téléchargez le fichier PDF scanné dans le moteur OCR pour la reconnaissance de texte.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Étape 3: Configurez le moteur OCR pour la reconnaissance

Configurez le moteur OCR pour optimiser l’extraction de texte du PDF scanné.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Étape 4 : extraire et sauvegarder le texte reconnu

Traitez le PDF scanné pour extraire le texte et le déposer dans un fichier.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Étape 5: Testez le texte reconnu

Après l’extraction, vérifiez l’exactitude de la reconnaissance du texte en vérifiant le fichier de sortie ou en le affichant sur la console.

Problèmes communs et fixations

1 La faible précision de l’OCR

Solution: Assurez-vous que la qualité du PDF scanné est élevée (300 DPI ou plus) pour une meilleure précision de la reconnaissance.

2 - Reconnaissance linguistique incorrecte

Solution: spécifie explicitement les paramètres de langue dans RecognitionSettings pour de meilleurs résultats, en particulier pour les caractères non latins.

Lente performance pour les fichiers majeurs

Solution: Traitement de grands PDF en morceaux ou optimisation de l’utilisation de la mémoire pour accélérer le processus OCR.