Kuinka poistaa tekstiä skannattujen PDF-tiedostojen kanssa Aspose.OCR

Kuinka poistaa tekstiä skannattujen PDF-tiedostojen kanssa Aspose.OCR

Tekstin poistaminen skannatuista tai kuvapohjaisista PDF-tiedostoista vaatii monimutkaisia työnkulkuja tai kalliita manuaalisia työtä. Aspose.OCR Scanned PDF to Text for .NET -tekstillä voit automatisoida tämän prosessin, muuntaa PDF:t hakuvaan ja muokkaavaan tekstiin vain muutamalla koodin rivillä.

Reaalimaailman ongelma

Organisaatiot saavat usein sopimuksia, raportteja tai arkistoja skannattujen PDF-tiedostojen tavoin. tekstin manuaalisesti kopioiminen tai näiden asiakirjojen sisällä etsiminen on tylsää ja virheellistä, mikä hidastaa noudattamista, arkistamista ja digitaalisen muuntamisen hankkeita.

Ratkaisun yleiskatsaus

Aspose.OCR for .NET mahdollistaa skannattujen PDF-tiedostojen käsittelyn – kääntämällä ne tekstiin tai hakukoneisiin, jolloin tiedot ovat saatavilla, indeksoittavia ja valmiita digitaalisille työvirtoille.

edellytykset

Ennen kuin aloitat, varmista että sinulla on:

  • Visual Studio 2019 tai uudempi
  • .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET alkaen NuGet
  • Perustiedot C#
PM> Install-Package Aspose.OCR

Vaiheittainen toteutus

Vaihe 1: Asenna ja asenna Aspose.OCR

Lisää NuGet-paketti ja viittaus Aspose.OCR:

using Aspose.OCR;

Vaihe 2: Lisää skannattuja PDF-tiedostoja

Luo OcrInput-objekti PDF-tuloksiin ja lisää skannattuja PDF -tiedostoja.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Vaihe 3: Määritä tunnistusasetukset

Aseta kieli ja muut tunnistusasetukset asiakirjoihisi.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Vaihe 4: Käynnistä tunnistamisprosessia

Tunnista teksti skannatuista PDF-tiedostoistasi:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Vaihe 5: Tallenna tai viedä tunnistettu teksti

Tutustu tunnistettuun tekstiin tiedostoihin tai muuntaa tulokset hakuvaan PDF-tiedostoon.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Vaihe 6: Lisää virheiden käsittely

Wrap tunnistaminen try/catch -blokkissa kestävyydelle.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Vaihe 7: Optimoi suuria tai monivuotisia PDF-tiedostoja

  • Käsittele PDF-tiedostoja sivua kohden suurille tiedostoille
  • Käytä laadukkaita skannauksia parhaan tuloksen saavuttamiseksi
  • Batch prosessi rinnakkain suurille kokoelmille
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Vaihe 8: Täydellinen työ esimerkki

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Käytä tapauksia ja sovelluksia

Digitaalinen arkistointi

Muunna skannattujen asiakirjojen koko kirjasto hakukelpoisiksi, indeksoitaviksi tiedostoiksi vaatimustenmukaisuuden ja tietämyksen hallinnan kannalta.

Oikeudellinen ja sopimuksen hallinta

Poista sopimuslausekkeet tai ehdot PDF-tiedostosta tarkistusta, automaatiota tai digitaalista allekirjoitusta varten.

Streamlined dokumentin etsiminen

Mahdollistaa nopean täyden tekstin hakemisen arkistoissa, tietopohjaisissa tai tapaustiedostoissa.

Yhteiset haasteet ja ratkaisut

Haaste 1: Huonolaatuiset tai heikentyneet skannat

** Ratkaisu:** Käytä ennalta käsiteltyjä suodattimia ja laadukkaita skannauksia, jos mahdollista.

Haaste 2: Monikieliset PDF-tiedostot

** Ratkaisu:** Aseta kieli tunnistamisasetuksissa tai prosessissa useilla kielivaihtoehdoilla.

Haaste 3: Suuri PDF-tiedostoja

** Ratkaisu:** Käsittelemme paketteja tai sivua kohden ja valvomme muistin käyttöä.

suorituskyvyn huomioon ottaminen

  • Käytä optimaalista DPIä (300+) skannatuille PDF-tiedostoille
  • Batch prosessi parhaan läpäisevän
  • OCR-objekteja ja suljettuja tiedostoja

Parhaat käytännöt

  • Validoi OCR-tuotanto ennen automaatiota
  • Järjestä ja varmuuskopioi alkuperäiset PDF-tiedostot
  • Käytä oikeaa SaveFormattia työnkulkuun
  • Aspose.OCR päivitetään säännöllisesti uusille PDF-ominaisuuksille

Edistyneet skenaariot

Käsikirjoitus 1: Poista vain tiettyjä sivuja PDF-tiedostosta

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Käsikirja 2: Moniin muotoihin vienti

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

johtopäätöksiä

Aspose.OCR for .NET mahdollistaa skannattujen PDF-tiedostojen muuntamisen toimitettavaksi tekstiksi ja hakuviksi tiedostoiksi – poistamalla manuaalinen sisäänpääsy ja tekemällä tiedot käytettävissä koko organisaatiossasi.

Lisätietoja ja esimerkkejä, katso ASPOSE.OCR .NET API-referenssille .

 Suomi