Hvordan konvertere skannede PDF-er til søkbare tekstdokumenter i .NET

Hvordan konvertere skannede PDF-er til søkbare tekstdokumenter i .NET

Scaned PDFs er ofte utfordrende å jobbe med fordi de er i hovedsak bare bilder av tekst. Konvertering av disse bildene til søkbare, redigerbare tekstdokumenter åpner opp en verden av muligheter for dokumentstyring og innhold tilgjengelighet. Med Aspose.OCR for .NET , kan du konvertere scannede PDF-er til fullstendig søkbare dokumenter samtidig som opprinnelige bilder bevares.

Hvorfor konvertere skannede PDF-er til søkbare tekstdokumenter?

  • Tilgjengelighet- Gjør skannet innhold søkbart, noe som gjør det enkelt å finne informasjon uten å lese manuelt gjennom dokumentet.

  • Oppdatering av innhold:- Når innholdet er konvertert til tekst, kan det redigeres, oppdateres eller gjenbrukes i andre formater.

  • • Effektivitet *:- Spar tid ved å automatisere prosessen med å konvertere skannede PDF-er til fullt tilgjengelige tekstdokumenter.

Forutsetninger: Setting Up for Scanned PDF Text Extraction

Før du ekstrakter tekst fra skannede PDF-er, følg disse trinnene for å sikre at alt er satt opp:

  • Installere Aspose.OCR for .NET :- Legg til Aspose.OCR til prosjektet ditt ved hjelp av NuGet: dotnet add package Aspose.OCR

    • Få din lisens*- Sett opp din målt lisens ved hjelp av SetMeteredKey() for å unngå full funksjonalitet av Aspose.OCR.
  • Forbered din skannede PDF :- Sørg for at de skannede PDF-ene er av god kvalitet for bedre gjenkjennelses nøyaktighet.

Step-by-Step Guide: Konvertering av skannede PDF-er til søkbar tekst

Steg 1: Sett opp lisensen din

Start ved å konfigurere din Aspose.OCR-lisens for å avblokke alle funksjonene.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Steg 2: Last ned den skannede PDF-filen til OCR Input Object

Deretter laster du den skannede PDF-filen inn i OcrInput -objektet for å starte OCR-prosessen.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Trinn 3: Konfigurere OCR-motoren for gjenkjennelse

Installer OCR-motoren og konfigurer alle gjenkjenningsinnstillinger, for eksempel språk og nøyaktighet.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Steg 4: Utveksle og uttrykke den anerkjente teksten

Nå kan du trekke ut teksten fra den skannede PDF-en ved hjelp av OCR-motoren.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Steg 5: Test den søkbare PDF

Sørg for at den utvunnet teksten er søkbar og redigerbar ved å teste utgangen i en PDF-viser eller redaktør.

Vanlige problemer og fixer

Lav OCR nøyaktighet

  • Løsning : Sørg for at skannet PDF er av høy kvalitet (minst 300 DPI) for å forbedre gjenkjenningsresultater.

2.Utstøttede fonts

  • Løsning : Sørg for at det riktige språket er satt i OCR-innstillingene for nøyaktig gjenkjennelse av tekst, spesielt for ikke-latin tegn.

Slow Performance for store PDF-er

  • Løsning : For store PDF-er, behandle dokumentet i mindre stykker eller sider for å redusere hukommelsesbruk og akselerere prosessen.
 Norsk