Hvordan ta ut tekst fra skannede PDF-er i .NET ved hjelp av Aspose.OCR

Hvordan ta ut tekst fra skannede PDF-er i .NET ved hjelp av Aspose.OCR

Scaned PDFs er ofte utfordrende å jobbe med fordi de er i hovedsak bare bilder av tekst. Konvertering av disse bildene til søkbare, redigerbare tekstdokumenter åpner opp en verden av muligheter for dokumentstyring og innhold tilgjengelighet. Med Aspose.OCR for .NET , kan du konvertere scannede PDF-er til fullstendig søkbare dokumenter samtidig som opprinnelige bilder bevares.

Hvorfor OCR (Optical Character Recognition) er viktig for skannede PDF-er

  • Data utvinning- OCR lar deg konvertere skannet tekst til maskinlesbare data, som kan redigeres og indekseres.

  • Søkbarhet- Ved å konvertere skannede PDF-er til søkbare dokumenter kan du raskt finne relevant informasjon uten å søke manuelt gjennom sider.

  • • Forbedret produktivitet:- Spar tid ved å automatisere konverteringen av skannede dokumenter til redigerbare formater som Word eller Excel.

Forutsetninger: Setting Up for Scanned PDF Text Extraction

Før du begynner å ekstraktere tekst fra skannede PDF-er, sørg for at følgende trinn er fullført:

  • Installere Aspose.OCR for .NET :- Legg til Aspose.OCR til prosjektet ditt ved hjelp av NuGet: dotnet add package Aspose.OCR

  • ** Få en målt lisens** :- Sett opp målt lisens for å unngå alle funksjonene i Aspose.OCR -biblioteket ved hjelp av SetMeteredKey().

  • Forbered dine skannede PDF-er :- Sørg for at dine skannede PDF-er er av høy kvalitet. bedre kvalitet resultater i mer nøyaktig OCR.

Step-by-Step Guide: Utvinning av tekst fra skannede PDF-er

Steg 1: Installere den nødvendige biblioteket

Start ved å installere Aspose.OCR for .NET i prosjektet ditt. Du kan gjøre dette direkte fra NuGet.

dotnet add package Aspose.OCR

Steg 2: Sett opp dine lisensnøkler

Før du fortsetter, konfigurere lisensen for Aspose.OCR for å avblokke alle funksjonene.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Trinn 3: Last ned den skannede PDF-filen til OCR Input Object

Du må laste ned den skannede PDF-en i OcrInput Objekt. Aspose.OCR støtter skanning av flere sider av en PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Steg 4: Behandle skannet PDF ved hjelp av OCR-motoren

Med PDF-filen lastet, send den til Aspose OCR -motoren for gjenkjennelse.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Steg 5: Slå ut den gjenkjente teksten eller lagre den

Når OCR-motoren behandler PDF-filen, kan du enten utføre den anerkjente teksten direkte eller lagre den til en fil.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Steg 6: Test og optimalisere OCR-resultater

Etter å ha utvunnet teksten, test utgangen for nøyaktighet. Hvis nødvendig, kan du tweak OCR-innstillinger for å forbedre resultatene for forskjellige dokument layouter.

Vanlige problemer og fixer

Dårlig OCR nøyaktighet

  • Løsning : Sørg for at den skannede PDF-kvaliteten er høy. Bruk høyoppløsningsskanninger for å forbedre gjenkjenningens nøyaktighet.

2.Utstøttede fonts

  • Løsning : Gi riktig språkinnstilling i OCR-alternativene for å forbedre gjenkjennelsen for ikke-latin tegn.

3. sakte ytelse

  • Løsning : Skru PDF-filen inn i mindre stykker eller sider for raskere behandling, spesielt for store dokumenter.
 Norsk