Hur man konverterar skannade PDF-filer till sökbara textdokument i .NET
Scannade PDF-filer är ofta utmanande att arbeta med eftersom de i grunden bara är bilder av text. Att konvertera dessa bilder till sökbara, redigerbara textdokument öppnar upp en värld av möjligheter för dokumenthantering och innehållstillgänglighet. Med Aspose.OCR för .NET kan du konvertera scannade PDF-filer till fullt sökbara dokument samtidigt som du bevarar de ursprungliga bilderna.
Varför konvertera scannade PDF-filer till sökbara textdokument?
- Tillgänglighet:
- Gör scannat innehåll sökbart, vilket gör det enkelt att hitta information utan att manuellt läsa igenom dokumentet.
- Innehållsredigering:
- När det har konverterats till text kan innehållet redigeras, uppdateras eller återanvändas i andra format.
- Effektivitet:
- Spara tid genom att automatisera processen att konvertera scannade PDF-filer till fullt tillgängliga textdokument.
Förutsättningar: Ställa in för textutvinning från scannade PDF-filer
Innan du extraherar text från scannade PDF-filer, följ dessa steg för att säkerställa att allt är inställt:
- Installera Aspose.OCR för .NET:
- Lägg till Aspose.OCR i ditt projekt med NuGet:
dotnet add package Aspose.OCR
- Lägg till Aspose.OCR i ditt projekt med NuGet:
- Skaffa din licens:
- Ställ in din mätlicens med
SetMeteredKey()
för att låsa upp hela funktionaliteten hos Aspose.OCR.
- Ställ in din mätlicens med
- Förbered din scannade PDF:
- Se till att de scannade PDF-filerna har bra kvalitet för bättre igenkänningsnoggrannhet.
Steg-för-steg-guide: Konvertera scannade PDF-filer till sökbar text
Steg 1: Ställ in din licens
Börja med att konfigurera din Aspose.OCR-licens för att låsa upp alla funktioner.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Licens konfigurerad framgångsrikt.");
Steg 2: Ladda den scannade PDF-filen i OCR-ingångsobjektet
Ladda nästa den scannade PDF-filen i OcrInput-objektet för att påbörja OCR-processen.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Bearbeta de första 3 sidorna
Console.WriteLine("Scannad PDF laddad framgångsrikt.");
Steg 3: Konfigurera OCR-motorn för igenkänning
Ställ in OCR-motorn och konfigurera eventuella igenkänningsinställningar, såsom språk och noggrannhet.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Ställ in OCR-språk
Console.WriteLine("OCR-motor konfigurerad.");
Steg 4: Extrahera och skriv ut den igenkända texten
Nu, extrahera texten från den scannade PDF-filen med hjälp av OCR-motorn.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraherad framgångsrikt från den scannade PDF-filen.");
// Skriv ut den igenkända texten
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Spara resultatet till en textfil
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text sparad till recognized_text.txt.");
Steg 5: Testa den sökbara PDF-filen
Säkerställ att den extraherade texten är sökbar och redigerbar genom att testa utdata i en PDF-läsare eller redigerare.
Vanliga problem och lösningar
1. Låg OCR-noggrannhet
- Lösning: Se till att den scannade PDF-filen har hög kvalitet (minst 300 DPI) för att förbättra igenkänningsresultaten.
2. Stödda typsnitt
- Lösning: Se till att rätt språk är inställt i OCR-inställningarna för noggrann textigenkänning, särskilt för icke-latinska tecken.
3. Långsam prestanda för stora PDF-filer
- Lösning: För stora PDF-filer, bearbeta dokumentet i mindre bitar eller sidor för att minska minnesanvändningen och snabba upp processen.