Kuinka poistaa tekstiä skannattujen PDF-tiedostojen kanssa Aspose.OCR

tekstiä skannattuun tai kuvanpohjaiseen PDF Tiedostot, joita käytetään vaativan monimutkaisia työnkulkuja tai kalliita manuaalisia töitä. Aspose.OCR Scanned PDF to Text for .NET, voit automatisoida tämän prosessin, muuntaa PDF-tiedostoja etsimättömään ja muokattavaan tekstiin vain muutamalla koodin rivillä.

Reaalimaailman ongelma

Organisaatiot saavat usein sopimuksia, raportteja tai arkistoja skannattujen PDF-tiedostojen tavoin. tekstin manuaalisesti kopioiminen tai näiden asiakirjojen sisällä etsiminen on tylsää ja virheellistä, mikä hidastaa noudattamista, arkistamista ja digitaalisen muuntamisen hankkeita.

Ratkaisun yleiskatsaus

Aspose.OCR for .NET mahdollistaa skannattujen PDF-tiedostojen käsittelyn – kääntämällä ne tekstiin tai hakukoneisiin, jolloin tiedot ovat saatavilla, indeksoittavia ja valmiita digitaalisille työvirtoille.

edellytykset

Ennen kuin aloitat, varmista että sinulla on:

Visual Studio 2019 tai uudempi
.NET 6.0 tai uudempi (tai .NET Framework 4.6.2+)
ASPOSE.OCR for .NET alkaen NuGet
Perustiedot C

PM> Install-Package Aspose.OCR

Vaiheittainen toteutus

Vaihe 1: Asenna ja asenna Aspose.OCR

Lisää NuGet-paketti ja viittaus Aspose.OCR:

using Aspose.OCR;

Vaihe 2: Lisää skannattuja PDF-tiedostoja

Luo OcrInput-objekti PDF-tuloksiin ja lisää skannattuja PDF -tiedostoja.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Vaihe 3: Määritä tunnistusasetukset

Aseta kieli ja muut tunnistusasetukset asiakirjoihisi.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Vaihe 4: Käynnistä tunnistamisprosessia

Tunnista teksti skannatuista PDF-tiedostoistasi:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Vaihe 5: Tallenna tai viedä tunnistettu teksti

Tutustu tunnistettuun tekstiin tiedostoihin tai muuntaa tulokset hakuvaan PDF-tiedostoon.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Vaihe 6: Lisää virheiden käsittely

Wrap tunnistaminen try/catch -blokkissa kestävyydelle.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Vaihe 7: Optimoi suuria tai monivuotisia PDF-tiedostoja

Käsittele PDF-tiedostoja sivua kohden suurille tiedostoille
Käytä laadukkaita skannauksia parhaan tuloksen saavuttamiseksi
Batch prosessi rinnakkain suurille kokoelmille

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Vaihe 8: Täydellinen työ esimerkki

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Käytä tapauksia ja sovelluksia

Digitaalinen arkistointi

Muunna skannattujen asiakirjojen koko kirjasto hakukelpoisiksi, indeksoitaviksi tiedostoiksi vaatimustenmukaisuuden ja tietämyksen hallinnan kannalta.

Oikeudellinen ja sopimuksen hallinta

Poista sopimuslausekkeet tai ehdot PDF-tiedostosta tarkistusta, automaatiota tai digitaalista allekirjoitusta varten.

Streamlined dokumentin etsiminen

Mahdollistaa nopean täyden tekstin hakemisen arkistoissa, tietopohjaisissa tai tapaustiedostoissa.

Yhteiset haasteet ja ratkaisut

Haaste 1: Huonolaatuiset tai heikentyneet skannat

Ratkaisu: Käytä ennalta käsiteltyjä suodattimia ja laadukkaita skannauksia, jos mahdollista.

Haaste 2: Monikieliset PDF-tiedostot

Ratkaisu: Aseta kieli tunnistamisasetuksissa tai prosessissa useilla kielivaihtoehdoilla.

Haaste 3: Suuri PDF-tiedostoja

Ratkaisu: Käsittelemme paketteja tai sivua kohden ja valvomme muistin käyttöä.

suorituskyvyn huomioon ottaminen

Käytä optimaalista DPIä (300+) skannatuille PDF-tiedostoille
Batch prosessi parhaan läpäisevän
OCR-objekteja ja suljettuja tiedostoja

Parhaat käytännöt

Validoi OCR-tuotanto ennen automaatiota
Järjestä ja varmuuskopioi alkuperäiset PDF-tiedostot
Käytä oikeaa SaveFormattia työnkulkuun
Aspose.OCR päivitetään säännöllisesti uusille PDF-ominaisuuksille

Edistyneet skenaariot

Käsikirjoitus 1: Poista vain tiettyjä sivuja PDF-tiedostosta

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Käsikirja 2: Moniin muotoihin vienti

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

johtopäätöksiä

Aspose.OCR for .NET mahdollistaa skannattujen PDF-tiedostojen muuntamisen toimitettavaksi tekstiksi ja hakuviksi tiedostoiksi – poistamalla manuaalinen sisäänpääsy ja tekemällä tiedot käytettävissä koko organisaatiossasi.

Lisätietoja ja esimerkkejä, katso ASPOSE.OCR .NET API-referenssille .