Kako pretvoriti skenirane PDF-ove u pretražive tekstne dokumente u .NET-u

Kako pretvoriti skenirane PDF-ove u pretražive tekstne dokumente u .NET-u

Skanirani PDF-ovi često su izazovni da rade s njima jer su u osnovi samo slike teksta. pretvaranje tih slika u pretraživačke, uređujuće tekstne dokumente otvara svijet mogućnosti za upravljanje dokumentima i pristupačnost sadržaja. sa Aspose.OCR za .NET, možete pretvoriti skenirane pdf-ove u potpuno tražene dokaze dok sačuvate originalne slike.

Zašto pretvoriti skenirane PDF-ove u tražene tekstne dokumente?

  • Dostupnost i dostupnost:- Učinite skenirani sadržaj pretraživim, čime je lako pronaći informacije bez ručnog čitanja kroz dokument.

  • Upravljanje sadržaja:- Nakon pretvaranja u tekst, sadržaj se može urediti, ažurirati ili ponovno koristiti u drugim formatima.

  • učinkovitost:- Uštedite vrijeme automatiziranjem procesa pretvaranja skeniranih PDF-a u potpuno pristupačne tekstne dokumente.

Preduvjeti: postavljanje za skenirano PDF tekst ekstrakcije

Prije uklanjanja teksta iz skeniranih PDF-a, slijedite ove korake kako biste bili sigurni da je sve postavljeno:

  • Install Aspose.OCR za .NET:- Dodajte Aspose.OCR u svoj projekt pomoću NuGeta: dotnet add package Aspose.OCR

  • Dobijte svoju dozvolu:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.

  • Pripremite svoj skenirani PDF:- Uvjerite se da su skenirani PDF-ovi dobre kvalitete za bolju točnost prepoznavanja.

Korak po korak vodič: pretvaranje skeniranih PDF-a u tražljiv tekst

Korak 1: Uklonite svoju dozvolu

Počnite konfiguriranjem licence Aspose.OCR da biste otključili sve značajke.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Korak 2: Preuzmite skenirani PDF u OCR Input Object

Sljedeće, preuzmite skenirani PDF u OcrInput objekt kako biste započeli OCR proces.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Korak 3: Konfigurirajte OCR motor za prepoznavanje

Postavite OCR motor i konfigurirajte sve postavke prepoznavanja, kao što su jezik i točnost.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Korak 4: Izvadite i izvadite prepoznatljiv tekst

Sada izvlači tekst iz skeniranog PDF-a pomoću motora OCR-a.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Korak 5: Provjerite tražljiv PDF

Uvjerite se da je izveden tekst pretražen i može se urediti testiranjem izlaska u PDF pregledniku ili uredniku.

Zajednička pitanja i rješenja

Niska točnost OCR-a

  • Rješenje: Uvjerite se da je skenirani PDF visokokvalitetan (najmanje 300 DPI) kako biste poboljšali rezultate prepoznavanja.

2. nepomoćni fontovi

  • Rješenje: Uvjerite se da je ispravan jezik postavljen u OCR postavkama za točno prepoznavanje teksta, osobito za ne-latinske znakove.

Slaba učinkovitost za velike PDF-ove

  • Rješenje: Za velike PDF-ove, obrađujte dokument u manjim komadićima ili stranicama kako biste smanjili upotrebu memorije i ubrzali proces.
 Hrvatski