Hvordan konvertere skannede PDF-er til søkbare tekstdokumenter i .NET
Scaned PDFs er ofte utfordrende å jobbe med fordi de er i hovedsak bare bilder av tekst. Konvertering av disse bildene til søkbare, redigerbare tekstdokumenter åpner opp en verden av muligheter for dokumentstyring og innhold tilgjengelighet. Med Aspose.OCR for .NET , kan du konvertere scannede PDF-er til fullstendig søkbare dokumenter samtidig som opprinnelige bilder bevares.
Hvorfor konvertere skannede PDF-er til søkbare tekstdokumenter?
Tilgjengelighet- Gjør skannet innhold søkbart, noe som gjør det enkelt å finne informasjon uten å lese manuelt gjennom dokumentet.
Oppdatering av innhold:- Når innholdet er konvertert til tekst, kan det redigeres, oppdateres eller gjenbrukes i andre formater.
• Effektivitet *:- Spar tid ved å automatisere prosessen med å konvertere skannede PDF-er til fullt tilgjengelige tekstdokumenter.
Forutsetninger: Setting Up for Scanned PDF Text Extraction
Før du ekstrakter tekst fra skannede PDF-er, følg disse trinnene for å sikre at alt er satt opp:
Installere Aspose.OCR for .NET :- Legg til Aspose.OCR til prosjektet ditt ved hjelp av NuGet:
dotnet add package Aspose.OCR
- Få din lisens*- Sett opp din målt lisens ved hjelp av
SetMeteredKey()
for å unngå full funksjonalitet av Aspose.OCR.
- Få din lisens*- Sett opp din målt lisens ved hjelp av
Forbered din skannede PDF :- Sørg for at de skannede PDF-ene er av god kvalitet for bedre gjenkjennelses nøyaktighet.
Step-by-Step Guide: Konvertering av skannede PDF-er til søkbar tekst
Steg 1: Sett opp lisensen din
Start ved å konfigurere din Aspose.OCR-lisens for å avblokke alle funksjonene.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Steg 2: Last ned den skannede PDF-filen til OCR Input Object
Deretter laster du den skannede PDF-filen inn i OcrInput -objektet for å starte OCR-prosessen.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Trinn 3: Konfigurere OCR-motoren for gjenkjennelse
Installer OCR-motoren og konfigurer alle gjenkjenningsinnstillinger, for eksempel språk og nøyaktighet.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Steg 4: Utveksle og uttrykke den anerkjente teksten
Nå kan du trekke ut teksten fra den skannede PDF-en ved hjelp av OCR-motoren.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Steg 5: Test den søkbare PDF
Sørg for at den utvunnet teksten er søkbar og redigerbar ved å teste utgangen i en PDF-viser eller redaktør.
Vanlige problemer og fixer
Lav OCR nøyaktighet
- Løsning : Sørg for at skannet PDF er av høy kvalitet (minst 300 DPI) for å forbedre gjenkjenningsresultater.
2.Utstøttede fonts
- Løsning : Sørg for at det riktige språket er satt i OCR-innstillingene for nøyaktig gjenkjennelse av tekst, spesielt for ikke-latin tegn.
Slow Performance for store PDF-er
- Løsning : For store PDF-er, behandle dokumentet i mindre stykker eller sider for å redusere hukommelsesbruk og akselerere prosessen.