Kuinka muuntaa skannattuja PDF-tiedostoja hakukäsitteisiin .NET: ssä

Kuinka muuntaa skannattuja PDF-tiedostoja hakukäsitteisiin .NET: ssä

Skannatut PDF-tiedostot ovat usein haastavia, koska ne ovat periaatteessa vain tekstikuvia. Näiden kuvien muuntaminen hakukelpoisiksi, muokkaaviksi tekstiasiakirjoiksi avaa maailman mahdollisuuksista asiakirjan hallintaan ja sisällön saatavuuteen. Aspose.OCR for .NET avulla voit muuntaa skannattuja PDF:itä kokonaan hakuvaan dokumenttiin ja säilyttää alkuperäiset kuvat.

Miksi muuttaa skannattuja PDF-tiedostoja hakukoneisiin tekstiasiakirjoihin?

  • Käytettävyys:- Pidä skannattu sisältö hakuva, joten tiedon löytäminen ilman manuaalista lukemista asiakirjan kautta on helppoa.

  • Sisällön muokkaus:- Kun sisältö on muunnettu tekstiin, se voidaan muokata, päivittää tai uudelleen käyttää muissa muodoissa.

  • Tehokkuus:- Säästä aikaa automatisoimalla skannattujen PDF-tiedostojen muuntamisprosessin täysin käytettävissä oleviin tekstiasiakirjoihin.

Edellytykset: Aseta skannattu PDF-tekstitulostus

Ennen tekstiä skannatuista PDF-tiedostoista, noudata näitä vaiheita varmistaaksesi, että kaikki on asennettu:

  • Asenna Aspose.OCR .NET varten:- Lisää Aspose.OCR projektillesi NuGetin avulla: dotnet add package Aspose.OCR

  • Saat lisenssin:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.

  • Lisää skannattu PDF:- Varmista, että skannatut PDF-tiedostot ovat laadukkaita parempaan tunnistamisen tarkkuuteen.

Vaiheittainen opas: Skannattujen PDF-tiedostojen muuntaminen etsimättömään tekstiin

Vaihe 1: Aseta lisenssi

Aloita määrittämällä Aspose.OCR-lisenssi avaamaan kaikki ominaisuudet.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Vaihe 2: Lataa skannattu PDF OCR Input Object

Seuraavaksi lataat skannattu PDF OcrInput -objektiin OCR-prosessin aloittamiseksi.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Vaihe 3: Aseta OCR-moottori tunnistamiseen

Aseta OCR-moottori ja määritä kaikki tunnistusasetukset, kuten kieli ja tarkkuus.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Vaihe 4: Poista ja poista tunnistettu teksti

Nyt poista teksti skannatusta PDF:stä OCR-moottorin avulla.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Vaihe 5: Kokeile PDF-tiedostoa

Varmista, että tuotettu teksti on hakukelpoinen ja muokattavissa testaamalla tulosta PDF-näytöllä tai muokkaajalla.

Yhteiset ongelmat ja korjaukset

1. Alhainen OCR tarkkuus

  • Ratkaisu: Varmista, että skannattu PDF on laadukas (vähintään 300 DPI) parantaa tunnistamisen tuloksia.

2. Tuottamattomat kirjaimet

  • Ratkaisu: Varmista, että OCR-asetuksissa asetetaan oikea kieli tarkkaan tekstin tunnistamiseen, erityisesti muille kuin latinalaisille merkille.

3. Vähemmän suorituskykyä suurille PDF-tiedostoille

  • Ratkaisu: Suuriin PDF-tiedostoihin käsitellään asiakirjaa pienemmissä osissa tai sivuissa muistin käytön vähentämiseksi ja prosessin nopeuttamiseksi.
 Suomi