Hur man konverterar skannade PDF-filer till sökbara textdokument i .NET
Skannade PDF-filer är vanligtvis icke-redigerbara, bildbaserade filer, vilket gör det svårt att extrahera text från dem. Men med Aspose.OCR för .NET kan du snabbt omvandla dessa skannade PDF-filer till redigerbara, sökbara textdokument som gör dataåtervinning och dokumenthantering mycket enklare.
Varför ska du konvertera skannade PDF-filer till sökbar text?
Förbättrad tillgänglighet:- Skannade PDF-filer kan konverteras till text som är sökbar och redigerbar, vilket möjliggör bättre tillgänglighet till innehållet.
Uppgiftsorganisationen:- En gång konverterat kan texten organiseras, manipuleras och återanvändas i olika format som Word, Excel eller platt text.
Innehållsbevarande:- Aspose.OCR säkerställer att de ursprungliga bilderna och layouten bevaras medan texten extraheras, vilket ger dig både innehåll och sammanhang.
Förutsättningar: Att vara redo för skannad PDF-konvertering
Innan du börjar processen att extrahera text från skannade PDF-filer, se till att följande:
Installera Aspose.OCR för .NET:- Installera den nödvändiga biblioteket med NuGet med kommandot:
dotnet add package Aspose.OCR
Licens konfiguration:- Få och konfigurera en måttlig licens med hjälp av
SetMeteredKey()
Metod för att låsa upp alla funktioner.Förbered dina skannade PDF-filer:- Se till att dina skannade PDF-filer är i god kvalitet (300 DPI eller högre) för bästa OCR-resultat.
Steg för steg guide för att konvertera skannade PDF-filer till text
Steg 1: Konfigurera din licens
Börja med att konfigurera din Aspose.OCR-licens för att säkerställa full tillgång till funktionerna.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Steg 2: Ladda upp den skannade PDF-filen till OCR Input Object
Ladda upp den skannade PDF-filen till OCR-motorn för textidentifiering.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
Steg 3: Konfigurera OCR-motorn för erkännande
Installera OCR-motorn för att optimera textutvinning från den skannade PDF-filen.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
Steg 4: Ta bort och spara den erkända texten
Processera den skannade PDF-filen för att extrahera texten och ta ut den till en fil.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
Steg 5: Testa den erkända texten
Efter extraktionen kontrollerar du noggrannheten i textidentifieringen genom att kontrollera utgångsfilen eller visa den på konsolen.
Vanliga problem och fixar
1. dålig OCR noggrannhet
- Lösning: Se till att den skannade PDF-kvaliteten är hög (300 DPI eller mer) för bättre erkännande noggrannhet.
2. felaktig språkkänning
- Lösning: Ange språkinställningen i RecognitionSettings för bättre resultat, särskilt för icke-latinska tecken.
3. långsam prestanda för stora filer
- Lösning: Behandla stora PDF-filer i bitar eller optimera minnesanvändningen för att påskynda OCR-processen.