Miten poistaa tekstiä skannatuista PDF-tiedostoista .NET: ssä käyttämällä Aspose.OCR:tä
Skannatut PDF-tiedostot ovat usein haastavia, koska ne ovat periaatteessa vain tekstikuvia. Näiden kuvien muuntaminen hakukelpoisiksi, muokkaaviksi tekstiasiakirjoiksi avaa maailman mahdollisuuksista asiakirjan hallintaan ja sisällön saatavuuteen. Aspose.OCR for .NET avulla voit muuntaa skannattuja PDF:itä kokonaan hakuvaan dokumenttiin ja säilyttää alkuperäiset kuvat.
Miksi OCR (Optical Character Recognition) on tärkeää skannatuille PDF-tiedostoille
Tietojen tuottaminen:- OCR mahdollistaa skannatun tekstin muuntamisen koneellisesti luettaviin tietoihin, jotka voidaan muokata ja indeksoida.
hakukyvyttömyys:- Tarkistamalla skannattuja PDF-tiedostoja hakuviksi asiakirjoiksi voit nopeasti löytää asiaankuuluvia tietoja ilman manuaalista hakua sivuilla.
Parannettu tuottavuus:- Säästä aikaa automaattisella skannattujen asiakirjojen muuntamisella muokattavissa muodoissa, kuten Word tai Excel.
Edellytykset: Aseta skannattu PDF-tekstitulostus
Ennen kuin aloitat tekstin poistoa skannatuista PDF-tiedostoistasi, varmista, että seuraavat vaiheet ovat täydellisiä:
Asenna Aspose.OCR .NET varten:- Lisää Aspose.OCR projektillesi NuGetin avulla:
dotnet add package Aspose.OCR
Hanki mitattu lisenssi:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.Lataa skannatut PDF-tiedostosi:- Varmista, että skannatut PDF-tiedostosi ovat laadukkaita. parempi laatu tulokset tarkemmin OCR.
Vaiheittainen opas: tekstien poisto skannatuista PDF-tiedostoista
Vaihe 1: Asenna tarvittava kirjasto
Aloita asentamalla Aspose.OCR for .NET projektissasi. voit tehdä tämän suoraan NuGetista.
dotnet add package Aspose.OCR
Vaihe 2: Aseta lisenssin avaimet
Ennen menettelyä asettaa Aspose.OCR -lisenssi avaamaan kaikki ominaisuudet.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Vaihe 3: Lataa skannattu PDF OCR Input Object
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Vaihe 4: Skannattu PDF:n käsittely OCR-moottorin avulla
Kun PDF on ladattava, siirry se tunnistamiseen Aspose OCR -moottoriin.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Vaihe 5: Tutustu tunnistettuun tekstiin tai tallenna se
Kun OCR-moottori käsittelee PDF-tiedostoa, voit joko tuoda tunnistetun tekstin suoraan tai tallentaa sen tiedostoon.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Vaihe 6: Testaa ja optimoi OCR-tulokset
Kun teksti on poistettu, testaa tulos tarkkuuden vuoksi. tarvittaessa voit työntää OCR-asetukset parantamaan tuloksia eri asiakirjojen järjestelyille.
Yhteiset ongelmat ja korjaukset
1. Huono OCR tarkkuus
- Ratkaisu: Varmista, että skannattu PDF-laatu on korkea. käytä korkean resoluution skannauksia tunnistuksen tarkkuuden parantamiseksi.
2. Tuottamattomat kirjaimet
- Ratkaisu: Tarjoa OCR-vaihtoehdoissa oikea kielen asetukset, jotta ei-latinilaisia merkkejä voidaan tunnistaa paremmin.
3. hidasta suorituskykyä
- Ratkaisu: Pidä PDF pienemmiksi kappaleiksi tai sivuiksi nopeampaan käsittelyyn, erityisesti suurille asiakirjoille.