Hoe tekst uit gescande PDF's in .NET te extraheren met behulp van Aspose.OCR
Scanned PDF’s zijn vaak uitdagend om met te werken omdat ze in wezen slechts afbeeldingen van tekst zijn.De omzetting van deze beelden in zoekbare, bewerkbare tekstdocumenten opent een wereld van mogelijkheden voor documentbeheer en inhoud toegankelijkheid. Met Aspose.OCR voor .NET, kunt u gescannede PDF’s omzetten in volledige zoektochtbare documenten terwijl u de oorspronkelijke bewerken behoudt.
Waarom OCR (Optical Character Recognition) belangrijk is voor gescannelde PDF’s
Data extractie:- OCR maakt het mogelijk om gescande tekst te converteren in machine-readable data, die kunnen worden bewerkt en geïndexeerd.
Zoekbaarheid:- Door gescannuleerde PDF’s te converteren in zoektochtbare documenten, kunt u snel relevante informatie vinden zonder handmatig door pagina’s te zoeken.
Verbeterde productiviteit:- Bespaar tijd door het automatiseren van de conversie van gescannelde documenten in bewerkbare formaten zoals Word of Excel.
Voorwaarden: Setting Up for Scanned PDF Text Extraction
Voordat u begint met het extraheren van tekst uit uw gescannen PDF’s, zorg ervoor dat de volgende stappen zijn voltooid:
Installeren van Aspose.OCR voor .NET:- Voeg Aspose.OCR toe aan uw project met behulp van NuGet:
dotnet add package Aspose.OCR
Krijg een gemeten licentie:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.Voorbereid uw gescannelde PDF’s:- Zorg ervoor dat uw gescannelde PDF’s van hoge kwaliteit zijn. betere kwaliteit resultaten in nauwkeuriger OCR.
Step-by-Step Guide: Het extraheren van tekst uit gescannuleerde PDF’s
Stap 1: Installeer de vereiste bibliotheek
Start met het installeren van Aspose.OCR voor .NET in uw project. u kunt dit rechtstreeks doen vanuit NuGet.
dotnet add package Aspose.OCR
Stap 2: Installeer uw licentie sleutels
Voordat u gaat, installeer uw licentie voor Aspose.OCR om alle functies te ontgrendelen.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Stap 3: Laden van de Scanned PDF naar het OCR Input Object
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Stap 4: Verwerken van de gescande PDF met behulp van de OCR-motor
Met de PDF geladen, stuur het naar de Aspose OCR-motor voor herkenning.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Stap 5: Verwijder de geïdentificeerde tekst of bewaar het
Zodra de OCR-machine de PDF verwerkt, kunt u de erkend tekst rechtstreeks uitoefenen of opslaan in een bestand.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Stap 6: Test en optimaliseren OCR-resultaten
Na het extraheren van de tekst, test de output voor nauwkeurigheid. indien nodig, kunt u de OCR-instellingen tweak om de resultaten te verbeteren voor verschillende documentarrangementen.
Gemeenschappelijke problemen en fixes
Slechte OCR nauwkeurigheid
- Solution: Zorg ervoor dat de gescannelde PDF-kwaliteit hoog is. Gebruik scans met een hoge resolutie om de waardering nauwkeurigheid te verbeteren.
2 Onbeheerde fonts
- Solutie: Zorg voor de juiste taalinstelling in de OCR-opties om de erkenning voor niet-Latin karakters te verbeteren.
3. langzame prestaties
- oplossing: breek de PDF in kleinere stukken of pagina’s voor snellere verwerking, vooral voor grote documenten.