Hvordan ta ut tekst fra skannede PDF-er i .NET ved hjelp av Aspose.OCR
Scaned PDFs er ofte utfordrende å jobbe med fordi de er i hovedsak bare bilder av tekst. Konvertering av disse bildene til søkbare, redigerbare tekstdokumenter åpner opp en verden av muligheter for dokumentstyring og innhold tilgjengelighet. Med Aspose.OCR for .NET , kan du konvertere scannede PDF-er til fullstendig søkbare dokumenter samtidig som opprinnelige bilder bevares.
Hvorfor OCR (Optical Character Recognition) er viktig for skannede PDF-er
Data utvinning- OCR lar deg konvertere skannet tekst til maskinlesbare data, som kan redigeres og indekseres.
Søkbarhet- Ved å konvertere skannede PDF-er til søkbare dokumenter kan du raskt finne relevant informasjon uten å søke manuelt gjennom sider.
• Forbedret produktivitet:- Spar tid ved å automatisere konverteringen av skannede dokumenter til redigerbare formater som Word eller Excel.
Forutsetninger: Setting Up for Scanned PDF Text Extraction
Før du begynner å ekstraktere tekst fra skannede PDF-er, sørg for at følgende trinn er fullført:
Installere Aspose.OCR for .NET :- Legg til Aspose.OCR til prosjektet ditt ved hjelp av NuGet:
dotnet add package Aspose.OCR
** Få en målt lisens** :- Sett opp målt lisens for å unngå alle funksjonene i Aspose.OCR -biblioteket ved hjelp av
SetMeteredKey()
.Forbered dine skannede PDF-er :- Sørg for at dine skannede PDF-er er av høy kvalitet. bedre kvalitet resultater i mer nøyaktig OCR.
Step-by-Step Guide: Utvinning av tekst fra skannede PDF-er
Steg 1: Installere den nødvendige biblioteket
Start ved å installere Aspose.OCR for .NET i prosjektet ditt. Du kan gjøre dette direkte fra NuGet.
dotnet add package Aspose.OCR
Steg 2: Sett opp dine lisensnøkler
Før du fortsetter, konfigurere lisensen for Aspose.OCR for å avblokke alle funksjonene.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Trinn 3: Last ned den skannede PDF-filen til OCR Input Object
Du må laste ned den skannede PDF-en i OcrInput
Objekt. Aspose.OCR støtter skanning av flere sider av en PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Steg 4: Behandle skannet PDF ved hjelp av OCR-motoren
Med PDF-filen lastet, send den til Aspose OCR -motoren for gjenkjennelse.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Steg 5: Slå ut den gjenkjente teksten eller lagre den
Når OCR-motoren behandler PDF-filen, kan du enten utføre den anerkjente teksten direkte eller lagre den til en fil.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Steg 6: Test og optimalisere OCR-resultater
Etter å ha utvunnet teksten, test utgangen for nøyaktighet. Hvis nødvendig, kan du tweak OCR-innstillinger for å forbedre resultatene for forskjellige dokument layouter.
Vanlige problemer og fixer
Dårlig OCR nøyaktighet
- Løsning : Sørg for at den skannede PDF-kvaliteten er høy. Bruk høyoppløsningsskanninger for å forbedre gjenkjenningens nøyaktighet.
2.Utstøttede fonts
- Løsning : Gi riktig språkinnstilling i OCR-alternativene for å forbedre gjenkjennelsen for ikke-latin tegn.
3. sakte ytelse
- Løsning : Skru PDF-filen inn i mindre stykker eller sider for raskere behandling, spesielt for store dokumenter.