Kako pretvoriti skenirane PDF-ove u pretražive tekstne dokumente u .NET-u
Skanirani PDF-ovi često su izazovni da rade s njima jer su u osnovi samo slike teksta. pretvaranje tih slika u pretraživačke, uređujuće tekstne dokumente otvara svijet mogućnosti za upravljanje dokumentima i pristupačnost sadržaja. sa Aspose.OCR za .NET, možete pretvoriti skenirane pdf-ove u potpuno tražene dokaze dok sačuvate originalne slike.
Zašto pretvoriti skenirane PDF-ove u tražene tekstne dokumente?
Dostupnost i dostupnost:- Učinite skenirani sadržaj pretraživim, čime je lako pronaći informacije bez ručnog čitanja kroz dokument.
Upravljanje sadržaja:- Nakon pretvaranja u tekst, sadržaj se može urediti, ažurirati ili ponovno koristiti u drugim formatima.
učinkovitost:- Uštedite vrijeme automatiziranjem procesa pretvaranja skeniranih PDF-a u potpuno pristupačne tekstne dokumente.
Preduvjeti: postavljanje za skenirano PDF tekst ekstrakcije
Prije uklanjanja teksta iz skeniranih PDF-a, slijedite ove korake kako biste bili sigurni da je sve postavljeno:
Install Aspose.OCR za .NET:- Dodajte Aspose.OCR u svoj projekt pomoću NuGeta:
dotnet add package Aspose.OCR
Dobijte svoju dozvolu:- Set up your metered license using
SetMeteredKey()
to unlock the full functionality of Aspose.OCR.Pripremite svoj skenirani PDF:- Uvjerite se da su skenirani PDF-ovi dobre kvalitete za bolju točnost prepoznavanja.
Korak po korak vodič: pretvaranje skeniranih PDF-a u tražljiv tekst
Korak 1: Uklonite svoju dozvolu
Počnite konfiguriranjem licence Aspose.OCR da biste otključili sve značajke.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Korak 2: Preuzmite skenirani PDF u OCR Input Object
Sljedeće, preuzmite skenirani PDF u OcrInput objekt kako biste započeli OCR proces.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Korak 3: Konfigurirajte OCR motor za prepoznavanje
Postavite OCR motor i konfigurirajte sve postavke prepoznavanja, kao što su jezik i točnost.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Korak 4: Izvadite i izvadite prepoznatljiv tekst
Sada izvlači tekst iz skeniranog PDF-a pomoću motora OCR-a.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Korak 5: Provjerite tražljiv PDF
Uvjerite se da je izveden tekst pretražen i može se urediti testiranjem izlaska u PDF pregledniku ili uredniku.
Zajednička pitanja i rješenja
Niska točnost OCR-a
- Rješenje: Uvjerite se da je skenirani PDF visokokvalitetan (najmanje 300 DPI) kako biste poboljšali rezultate prepoznavanja.
2. nepomoćni fontovi
- Rješenje: Uvjerite se da je ispravan jezik postavljen u OCR postavkama za točno prepoznavanje teksta, osobito za ne-latinske znakove.
Slaba učinkovitost za velike PDF-ove
- Rješenje: Za velike PDF-ove, obrađujte dokument u manjim komadićima ili stranicama kako biste smanjili upotrebu memorije i ubrzali proces.