How to Extract Text Scanned Pdfs Dotnet Aspose

Scannade PDF-filer är ofta svåra att arbeta med eftersom de i grunden bara är bilder av text. Att konvertera dessa bilder till sökbara, redigerbara textdokument öppnar upp en värld av möjligheter för dokumenthantering och tillgänglighet av innehåll. Med Aspose.OCR för .NET kan du konvertera scannade PDF-filer till helt sökbara dokument samtidigt som de ursprungliga bilderna bevaras.

Varför OCR (Optical Character Recognition) är Viktigt för Scannade PDF-filer

  1. Datautvinning:
    • OCR låter dig konvertera scannad text till maskinläsbar data, vilket kan redigeras och indexeras.
  2. Sökbarhet:
    • Genom att konvertera scannade PDF-filer till sökbara dokument kan du snabbt hitta relevant information utan att manuellt söka igenom sidor.
  3. Förbättrad Produktivitet:
    • Spara tid genom att automatisera konverteringen av scannade dokument till redigerbara format som Word eller Excel.

Förutsättningar: Förbereda för Textutvinning från Scannade PDF-filer

Innan du börjar extrahera text från dina scannade PDF-filer, se till att följande steg är genomförda:

  1. Installera Aspose.OCR för .NET:
    • Lägg till Aspose.OCR i ditt projekt med NuGet:
      dotnet add package Aspose.OCR
  2. Skaffa en Metered Licens:
    • Ställ in din metered licens för att låsa upp alla funktioner i Aspose.OCR-biblioteket med SetMeteredKey().
  3. Förbered Ditt Scannade PDF:
    • Se till att dina scannade PDF-filer har hög kvalitet. Bättre kvalitet ger mer exakt OCR.

Steg-för-Steg Guide: Extrahera Text från Scannade PDF-filer

Steg 1: Installera det Nödvändiga Biblioteket

Börja med att installera Aspose.OCR för .NET i ditt projekt. Du kan göra detta direkt från NuGet.

dotnet add package Aspose.OCR

Steg 2: Ställ in Dina Licensnycklar

Innan du går vidare, konfigurera din licens för Aspose.OCR för att låsa upp alla funktioner.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<din offentliga nyckel>", "<din privata nyckel>");
Console.WriteLine("Licens konfigurerad framgångsrikt.");

Steg 3: Ladda den Scannade PDF-filen i OCR Inmatningsobjektet

Du behöver ladda den scannade PDF-filen i OcrInput-objektet. Aspose.OCR stöder scanning av flera sidor i en PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Bearbeta de första 3 sidorna av PDF-filen
Console.WriteLine("Scannad PDF laddad framgångsrikt.");

Steg 4: Bearbeta den Scannade PDF-filen med OCR-Motorn

När PDF-filen är laddad, skicka den till Aspose OCR-motorn för igenkänning.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Ställ in OCR-språk (t.ex. Latin för engelska)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraherad från PDF.");

Steg 5: Utdata den Igenkända Texten eller Spara den

När OCR-motorn har bearbetat PDF-filen kan du antingen skriva ut den igenkända texten direkt eller spara den till en fil.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Igenkänd Text: {recognizedText}");

// Spara resultatet till en textfil
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Igenkänd text sparad till output.txt.");

Steg 6: Testa och Optimera OCR-resultaten

Efter att ha extraherat texten, testa utdata för noggrannhet. Om det behövs kan du justera OCR-inställningarna för att förbättra resultaten för olika dokumentlayouter.


Vanliga Problem och Lösningar

1. Dålig OCR-Noggrannhet

  • Lösning: Se till att kvaliteten på den scannade PDF-filen är hög. Använd högupplösta skanningar för att förbättra igenkänningsnoggrannheten.

2. Stödda Teckensnitt

  • Lösning: Ange rätt språkinställning i OCR-alternativen för att förbättra igenkänningen av icke-latinska tecken.

3. Långsam Prestanda

  • Lösning: Dela upp PDF-filen i mindre bitar eller sidor för snabbare bearbetning, särskilt för stora dokument.
 Svenska