Hvordan man konverterer scannede PDF'er til søgbare tekstdokumenter i .NET

Hvordan man konverterer scannede PDF'er til søgbare tekstdokumenter i .NET

Scannede PDF’er er ofte udfordrende at arbejde med, fordi de i væsentlig grad kun er billeder af tekst. Konvertering af disse billeder til søgbare, redigerbare tekstdokumenter åbner en verden af muligheder for dokumentstyring og indholdstilgængelighed. Med Aspose.OCR for .NET, kan du konvertere scannede pdf-er til fuldt søgbare dokumenter mens du bevarer de oprindelige billeder.

Hvorfor konvertere scannede PDF’er til søgbare tekstdokumenter?

  • Tilgængelighed:- Gør scannede indhold søgbare, hvilket gør det nemt at finde oplysninger uden manuelt at læse gennem dokumentet.

  • Udgivelse af indhold:- Når indholdet er konverteret til tekst, kan det redigeres, opdateres eller genanvendes i andre formater.

  • Effektivitet og effektivitet:- Spar tid ved at automatisere processen med at konvertere scannede PDF’er til fuldt tilgængelige tekstdokumenter.

Forudsætninger: Indstillinger for scannede PDF-tekstekstraktion

Før du ekstrakter tekst fra scannede PDF’er, skal du følge disse trin for at sikre, at alt er indstillet:

  • Installere Aspose.OCR til .NET:- Tilføj Aspose.OCR til dit projekt ved hjælp af NuGet: dotnet add package Aspose.OCR

  • Få din licens:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.

  • Forbered din skannede PDF:- Sørg for, at scannede PDF’er er af god kvalitet for bedre genkendelse nøjagtighed.

Step-by-Step Guide: Konvertering af scannede PDF’er til søgbart tekst

Trin 1: Indtast din licens

Start ved at konfigurere din Aspose.OCR-licens for at lukke alle funktioner.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Trin 2: Lade den scannede PDF ind i OCR Input Object

Derefter lader du den scannede PDF ind i OcrInput-objektet for at starte OCR-processen.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Trin 3: Konfigurer OCR-motoren til anerkendelse

Indstille OCR-motoren og konfigurer alle genkendelsesindstillinger, såsom sprog og nøjagtighed.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Trin 4: Udvælg og udvælg den anerkendte tekst

Nu ekstrakter du teksten fra den scannede PDF ved hjælp af OCR-motoren.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Trin 5: Test den søgbare PDF

Sørg for, at den udvundede tekst er søgbare og redigerbar ved at teste udgangen i en PDF-visor eller editor.

Vanlige problemer og fixer

Lav OCR præcision

  • Løsning: Sørg for, at den scannede PDF er af høj kvalitet (mindst 300 DPI) for at forbedre genkendelsesresultaterne.

2.Utstøttede Fonts

  • Løsning: Sørg for, at det korrekte sprog er indstillet i OCR-indstillingerne for nøjagtig tekstfornemmelse, især for ikke-latin tegn.

Slow Performance for store PDF’er

  • Løsning: For store PDF’er behandler du dokumentet i mindre stykker eller sider for at reducere hukommelsesbruget og fremskynde processen.
 Dansk