Hvordan til at udveksle tekst fra scannede PDF'er i .NET ved hjælp af Aspose.OCR

Hvordan til at udveksle tekst fra scannede PDF'er i .NET ved hjælp af Aspose.OCR

Scannede PDF’er er ofte udfordrende at arbejde med, fordi de i væsentlig grad kun er billeder af tekst. Konvertering af disse billeder til søgbare, redigerbare tekstdokumenter åbner en verden af muligheder for dokumentstyring og indholdstilgængelighed. Med Aspose.OCR for .NET, kan du konvertere scannede pdf-er til fuldt søgbare dokumenter mens du bevarer de oprindelige billeder.

Hvorfor OCR (Optical Character Recognition) er vigtigt for scannede PDF’er

  • Dataudvinding:- OCR giver dig mulighed for at konvertere scannet tekst til maskinlæsbare data, som kan redigeres og indekseres.

  • Søgbarhed og søgning:- Ved at konvertere scannede PDF’er til søgbare dokumenter kan du hurtigt finde relevante oplysninger uden manuelt at søge gennem sider.

  • Forbedret produktivitet:- Spar tid ved at automatisere konvertering af scannede dokumenter til redigerbare formater som Word eller Excel.

Forudsætninger: Indstillinger for scannede PDF-tekstekstraktion

Før du begynder at udveksle tekst fra dine scannede PDF’er, skal du sørge for, at følgende trin er fuldstændige:

  • Installere Aspose.OCR til .NET:- Tilføj Aspose.OCR til dit projekt ved hjælp af NuGet: dotnet add package Aspose.OCR

  • Få en målt licens:- Set up your metered license to unlock all features of the Aspose.OCR library using SetMeteredKey().

  • Forbered dine scannede PDF’er:- Sørg for, at dine scannede PDF’er er af høj kvalitet. Bedre kvalitetsresultater i mere nøjagtig OCR.

Step-by-Step Guide: Udvinding af tekst fra scannede PDF’er

Trin 1: Installation af den nødvendige bibliotek

Start ved at installere Aspose.OCR for .NET i dit projekt. Du kan gøre dette direkte fra NuGet.

dotnet add package Aspose.OCR

Trin 2: Indstill dine licensnøgler

Før du går videre, skal du konfigurere din licens til Aspose.OCR for at lukke alle funktioner.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Trin 3: Lade den scannede PDF til OCR Input Object

You’ll need to load the scanned PDF into the OcrInput object. Aspose.OCR supports scanning multiple pages of a PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Trin 4: Behandle den scannede PDF ved hjælp af OCR-motoren

Med PDF’en ladet, send den til Aspose OCR-motoren for genkendelse.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Trin 5: Vælg den anerkendte tekst eller gem den

Når OCR-motoren behandler PDF’en, kan du enten udføre den anerkendte tekst direkte eller gemme den til en fil.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Trin 6: Test og optimere OCR-resultater

Efter at have udvundet teksten, skal du teste udgangen for nøjagtighed. Hvis det er nødvendigt, kan du tweak OCR-indstillingerne for at forbedre resultaterne for forskellige dokumentarrangementer.

Vanlige problemer og fixer

1. dårlig OCR nøjagtighed

  • Løsning: Sørg for, at den scannede PDF-kvalitet er høj. Brug skanninger med høj opløsning for at forbedre genkendelse nøjagtighed.

2.Utstøttede Fonts

  • Løsning: Giv den korrekte sprogindstilling i OCR-mulighederne for at forbedre genkendelsen for ikke-latin karakterer.

3. langsom præstation

  • Løsning: Skære PDF’en i mindre stykker eller sider for hurtigere behandling, især for store dokumenter.
 Dansk