Comment convertir des PDF scannés en documents texte consultables dans .NET
Scanned PDFs sont généralement des fichiers basés sur des images et non modifiables, ce qui rend l’extraction de texte difficile. Cependant, avec Aspose.OCR pour .NET, vous pouvez rapidement transformer ces PDFs scannés en documents texte modifiables et recherchables, ce qui facilite la récupération des données et la gestion des documents.
Pourquoi devriez-vous convertir des PDFs scannés en texte recherchable ?
- Accessibilité améliorée :
- Les PDFs scannés peuvent être convertis en texte qui est recherchable et modifiable, permettant une meilleure accessibilité au contenu.
- Organisation des données :
- Une fois converti, le texte peut être organisé, manipulé et réutilisé dans divers formats comme Word, Excel ou texte brut.
- Conservation du contenu :
- Aspose.OCR garantit que les images et la mise en page originales sont préservées lors de l’extraction du texte, vous offrant à la fois contenu et contexte.
Prérequis : Se préparer à la conversion de PDF scannés
Avant de commencer le processus d’extraction de texte à partir de PDFs scannés, assurez-vous de ce qui suit :
- Installer Aspose.OCR pour .NET :
- Installez la bibliothèque nécessaire via NuGet avec la commande :
dotnet add package Aspose.OCR
- Installez la bibliothèque nécessaire via NuGet avec la commande :
- Configuration de la licence :
- Obtenez et configurez une licence à la consommation en utilisant la méthode
SetMeteredKey()
pour débloquer toutes les fonctionnalités.
- Obtenez et configurez une licence à la consommation en utilisant la méthode
- Préparez vos PDFs scannés :
- Assurez-vous que vos PDFs scannés sont de bonne qualité (300 DPI ou plus) pour de meilleurs résultats OCR.
Guide étape par étape pour convertir des PDFs scannés en texte
Étape 1 : Configurez votre licence
Commencez par configurer votre licence Aspose.OCR pour garantir un accès complet aux fonctionnalités.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<votre clé publique>", "<votre clé privée>");
Console.WriteLine("Licence à la consommation configurée avec succès.");
Étape 2 : Chargez le PDF scanné dans l’objet d’entrée OCR
Chargez le fichier PDF scanné dans le moteur OCR pour la reconnaissance de texte.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("document_scanné.pdf", 0, 3); // Spécifiez les pages à traiter (les 3 premières pages)
Console.WriteLine("PDF scanné chargé avec succès.");
Étape 3 : Configurez le moteur OCR pour la reconnaissance
Configurez le moteur OCR pour optimiser l’extraction de texte à partir du PDF scanné.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Spécifiez la langue OCR (utilisez Latin pour l'anglais)
Console.WriteLine("Paramètres OCR configurés.");
Étape 4 : Extraire et sauvegarder le texte reconnu
Traitez le PDF scanné pour extraire le texte et le sortir dans un fichier.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Extraction de texte réussie.");
// Sortie du texte reconnu dans un fichier
results[0].Save("texte_reconnu.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Texte reconnu sauvegardé dans texte_reconnu.txt.");
Étape 5 : Testez le texte reconnu
Après l’extraction, vérifiez l’exactitude de la reconnaissance de texte en vérifiant le fichier de sortie ou en l’affichant sur la console.
Problèmes courants et solutions
1. Mauvaise précision OCR
- Solution : Assurez-vous que la qualité du PDF scanné est élevée (300 DPI ou plus) pour une meilleure précision de reconnaissance.
2. Reconnaissance de langue incorrecte
- Solution : Spécifiez explicitement le paramètre de langue dans RecognitionSettings pour de meilleurs résultats, en particulier pour les caractères non latins.
3. Performance lente pour les fichiers volumineux
- Solution : Traitez les grands PDFs par morceaux ou optimisez l’utilisation de la mémoire pour accélérer le processus OCR.