Hur man extraherar text från skannade PDF-filer i .NET med Aspose.OCR
Skannade PDF-filer är ofta utmanande att arbeta med eftersom de i huvudsak är bara bilder av text. Omvandlingen av dessa bilder till sökbara, redigerbara textdokument öppnar upp en värld av möjligheter för dokumenthantering och innehållstillgänglighet. Med Aspose.OCR för .NET kan du omvandla skannade PDF-filer till fullt sökbara dokument samtidigt som du behåller de ursprungliga bilderna.
Varför OCR (Optical Character Recognition) är viktigt för skannade PDF-filer
Datautvinning:- OCR låter dig konvertera skannat text till maskinläsbara data, som kan redigeras och indexeras.
Sökbarhet:- Genom att konvertera skannade PDF-filer till sökbara dokument kan du snabbt hitta relevant information utan att manuellt söka igenom sidor.
Förbättrad produktivitet:- Spara tid genom att automatisera omvandlingen av skannade dokument till redigerbara format som Word eller Excel.
Förutsättningar: Inställningar för skannad PDF Text Extraction
Innan du börjar extrahera text från dina skannade PDF-filer, se till att följande steg är färdiga:
Installera Aspose.OCR för .NET:- Lägg till Aspose.OCR till ditt projekt med NuGet:
dotnet add package Aspose.OCR
Få en måttlig licens:- Ställ in din mätade licens för att låsa upp alla funktioner i biblioteket Aspose.OCR med hjälp av
SetMeteredKey()
.Förbered dina skannade PDF-filer:- Se till att dina skannade PDF-filer är av hög kvalitet. bättre kvalitet resultat i mer exakt OCR.
Steg för steg Guide: Extracting Text från Scanned PDFs
Steg 1: Installera den nödvändiga biblioteket
Börja med att installera Aspose.OCR för .NET i ditt projekt. Du kan göra detta direkt från NuGet.
dotnet add package Aspose.OCR
Steg 2: Ställ in dina licensnycklar
Innan du börjar konfigurera din licens för Aspose.OCR för att låsa upp alla funktioner.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Steg 3: Ladda upp den skannade PDF-filen till OCR Input Object
Du kommer att behöva ladda den skannade PDF-filen i OcrInput
Objekt. Aspose.OCR stöder scanning av flera sidor av en PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Steg 4: Processera skannat PDF med OCR-motorn
Med PDF-filen laddad, överför den till Aspose OCR-motorn för erkännande.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Steg 5: Hämta den erkända texten eller spara den
När OCR-motorn behandlar PDF-filen kan du antingen exportera den erkända texten direkt eller spara den i en fil.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Steg 6: Testa och optimera OCR-resultat
Efter att ha extraherat texten, testar du utgången för noggrannhet. Om det behövs kan du tweakera OCR-inställningarna för att förbättra resultaten för olika dokument layouter.
Vanliga problem och fixar
1. dålig OCR noggrannhet
- Lösning: Se till att den skannade PDF-kvaliteten är hög. Använd högupplösningsskannor för att förbättra upptäckts noggrannhet.
2.Ounderstödda Fonts
- Lösning: Ge rätt språkinställning i OCR-alternativen för att förbättra erkännandet för icke-latinska tecken.
3. långsam prestanda
- Lösning: Skär PDF i mindre bitar eller sidor för snabbare bearbetning, särskilt för stora dokument.