Hvordan man konverterer scannede PDF'er til søgbare tekstdokumenter i .NET

Hvordan man konverterer scannede PDF'er til søgbare tekstdokumenter i .NET

Scannede PDF’er er typisk ikke-redigbare, billedbaserede filer, hvilket gør det vanskeligt at udveksle tekst fra dem. dog med Aspose.OCR for .NET, kan du hurtigt omdanne disse scannet PDFs til redigerbar, søgbare tekstdokumenter som gør dataoptagelse og dokumentstyring meget lettere.

Hvorfor skal du konvertere scannede PDF’er til søgbare tekst?

  • get tilgængelighed:- Scannede PDF’er kan konverteres til tekst, der er søgbare og redigerbare, hvilket giver bedre tilgængelighed til indholdet.

  • Datasætning af data:- Når den er konverteret, kan teksten organiseres, manipuleres og genanvendes i forskellige formater som Word, Excel eller plain tekst.

  • Indholdsopbevaring:- Aspose.OCR sikrer, at de oprindelige billeder og layout bevares, mens teksten er udvundet, hvilket giver dig både indhold og kontekst.

Forudsætninger: Getting Ready for Scanned PDF Conversion

Før du begynder processen med at udveksle tekst fra scannede PDF’er, sørg for følgende:

  • Installere Aspose.OCR til .NET:- Installere den nødvendige bibliotek ved hjælp af NuGet med kommandoen: dotnet add package Aspose.OCR

  • Licens konfiguration:- Obtain and configure a metered license using the SetMeteredKey() method to unlock all features.

  • Forbered dine scannede PDF’er:- Sørg for, at dine scannede PDF’er er i god kvalitet (300 DPI eller højere) for de bedste OCR-resultater.

Step-by-step guide til at konvertere scannede PDF’er til tekst

Trin 1: Konfigurer din licens

Start ved at konfigurere din Aspose.OCR-licens for at sikre fuld adgang til funktionerne.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Trin 2: Lade den scannede PDF ind i OCR Input Object

Lad den scannede PDF-fil ind i OCR-motoren for tekstgenkendelse.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Trin 3: Konfigurer OCR-motoren til anerkendelse

Indstille OCR-motoren til at optimere tekstudvinding fra den scannede PDF.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Trin 4: Udvælg og gem den anerkendte tekst

Behandle den scannede PDF for at udtrykke teksten og udtrykke den til en fil.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Trin 5: Test den anerkendte tekst

Efter ekstraktionen kontrollerer du nøjagtigheden af tekstgenkendelsen ved at tjekke outputfilen eller vise den på konsollen.

Vanlige problemer og fixer

1. dårlig OCR nøjagtighed

  • Løsning: Sørg for, at den scannede PDF-kvalitet er høj (300 DPI eller mere) for bedre genkendelse nøjagtighed.

2.Uregelmæssig sprogligkendelse

  • Løsning: Angiv udtrykkeligt sprogindstillingen i RecognitionSettings for bedre resultater, især for ikke-latin tegn.

Slow performance for store filer

  • Løsning: Processer store PDF’er i stykker eller optimerer hukommelsessystemet for at fremskynde OCR-processen.
 Dansk