Hoe tekst uit gescande PDF's in .NET te extraheren met behulp van Aspose.OCR

Scanned PDF’s zijn vaak uitdagend om met te werken omdat ze in wezen slechts afbeeldingen van tekst zijn.De omzetting van deze beelden in zoekbare, bewerkbare tekstdocumenten opent een wereld van mogelijkheden voor documentbeheer en inhoud toegankelijkheid. Met Aspose.OCR voor .NET, kunt u gescannede PDF’s omzetten in volledige zoektochtbare documenten terwijl u de oorspronkelijke bewerken behoudt.

Waarom OCR (Optical Character Recognition) belangrijk is voor gescannelde PDF’s

Data extractie:- OCR maakt het mogelijk om gescande tekst te converteren in machine-readable data, die kunnen worden bewerkt en geïndexeerd.
Zoekbaarheid:- Door gescannuleerde PDF’s te converteren in zoektochtbare documenten, kunt u snel relevante informatie vinden zonder handmatig door pagina’s te zoeken.
Verbeterde productiviteit:- Bespaar tijd door het automatiseren van de conversie van gescannelde documenten in bewerkbare formaten zoals Word of Excel.

Voorwaarden: Setting Up for Scanned PDF Text Extraction

Voordat u begint met het extraheren van tekst uit uw gescannen PDF’s, zorg ervoor dat de volgende stappen zijn voltooid:

Installeren van Aspose.OCR voor .NET:- Voeg Aspose.OCR toe aan uw project met behulp van NuGet: dotnet add package Aspose.OCR
Krijg een gemeten licentie:- Stel uw gemeten licentie op om alle functies van de Aspose.OCR bibliotheek te ontgrendelen met behulp van SetMeteredKey().
Voorbereid uw gescannelde PDF’s:- Zorg ervoor dat uw gescannelde PDF’s van hoge kwaliteit zijn. betere kwaliteit resultaten in nauwkeuriger OCR.

Step-by-Step Guide: Het extraheren van tekst uit gescannuleerde PDF’s

Stap 1: Installeer de vereiste bibliotheek

Start met het installeren van Aspose.OCR voor .NET in uw project. u kunt dit rechtstreeks doen vanuit NuGet.

dotnet add package Aspose.OCR

Stap 2: Installeer uw licentie sleutels

Voordat u gaat, installeer uw licentie voor Aspose.OCR om alle functies te ontgrendelen.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Stap 3: Laden van de Scanned PDF naar het OCR Input Object

U zult de gescannelde moet opladen target="_blank" rel="noopener"> PDF

In de OcrInput object. Aspose.OCR ondersteunt het scannen van meerdere pagina’s van een PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Stap 4: Verwerken van de gescande PDF met behulp van de OCR-motor

Met de PDF geladen, stuur het naar de Aspose OCR-motor voor herkenning.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Stap 5: Verwijder de geïdentificeerde tekst of bewaar het

Zodra de OCR-machine de PDF verwerkt, kunt u de erkend tekst rechtstreeks uitoefenen of opslaan in een bestand.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Stap 6: Test en optimaliseren OCR-resultaten

Na het extraheren van de tekst, test de output voor nauwkeurigheid. indien nodig, kunt u de OCR-instellingen tweak om de resultaten te verbeteren voor verschillende documentlijsten.

Gemeenschappelijke problemen en fixes

Slechte OCR nauwkeurigheid

Solution: Zorg ervoor dat de gescannelde PDF-kwaliteit hoog is. Gebruik scans met een hoge resolutie om de waardering nauwkeurigheid te verbeteren.

2 Onbeheerde fonts

Solutie: Zorg voor de juiste taalinstelling in de OCR-opties om de erkenning voor niet-Latin karakters te verbeteren.

3. langzame prestaties

oplossing: breek de PDF in kleinere stukken of pagina’s voor snellere verwerking, vooral voor grote documenten.