Comment convertir les PDF scanés en documents de texte recherchables dans .NET

Les PDF scanés sont souvent difficiles à travailler avec parce qu’ils sont essentiellement des images de texte.Convertir ces images en documents de texte recherchables, édicables ouvre un monde de possibilités pour la gestion de documents et l’accessibilité du contenu. Avec Aspose.OCR pour .NET, vous pouvez convertir les PDF scanés en documents entièrement recherchables tout en conservant les images originales.

Pourquoi convertir les PDF scanés en documents texte recherchables ?

L’accessibilité:- Faites que le contenu scanné puisse être recherché, ce qui facilite la recherche d’informations sans être lu manuellement à travers le document.
Rédaction de contenu:- Une fois converti en texte, le contenu peut être modifié, mis à jour ou réutilisé dans d’autres formats.
Efficacité:- Économisez le temps en automatisant le processus de conversion des PDF scannés en documents texte complètement accessibles.

Principaux critères: Configuration pour l’extraction de texte PDF scanée

Avant d’extraire le texte des PDF scannés, suivez ces étapes pour s’assurer que tout est configuré :

Installez Aspose.OCR pour .NET:- Ajoutez Aspose.OCR à votre projet en utilisant NuGet : dotnet add package Aspose.OCR
Obtenez votre licence:- Configurez votre licence mesurée en utilisant SetMeteredKey() Pour désactiver la fonctionnalité complète de Aspose.OCR.
Préparez votre PDF scané:- Assurez-vous que les PDF scannés sont de bonne qualité pour une meilleure précision de la reconnaissance.

Guide étape par étape : Convertir les PDF scanés en texte recherchable

Étape 1 : Configurez votre licence

Commencez par configurer votre licence Aspose.OCR pour déverrouiller toutes les fonctionnalités.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Étape 2 : Téléchargez le PDF scané dans l’objet d’entrée OCR

Ensuite, charger le PDF scanné dans l’objet OcrInput pour commencer le processus OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Étape 3: Configurez le moteur OCR pour la reconnaissance

Configurez le moteur OCR et configurez toutes les paramètres de reconnaissance, tels que la langue et l’exactitude.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Étape 4 : Extrait et sortie du texte reconnu

Maintenant, extraire le texte du PDF scanné en utilisant le moteur OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Étape 5: Testez le PDF recherchable

Assurez-vous que le texte extrait est recherchable et modifiable en testant la sortie dans un navigateur PDF ou un éditeur.

Problèmes communs et fixations

Niveaux d’exactitude OCR

Solution: Assurez-vous que le PDF scanné est de haute qualité (au moins 300 DPI) pour améliorer les résultats de reconnaissance.

2 - Fonts non soutenus

Solution: Assurez-vous que la langue correcte est définie dans les paramètres OCR pour une reconnaissance de texte précise, en particulier pour les caractères non latins.

Lente performance pour les grands PDF

Solution: Pour les grands PDF, traitez le document en petits morceaux ou pages pour réduire l’utilisation de la mémoire et accélérer le processus.