Kako izvući tekst iz skeniranih PDF-a pomoću Aspose.OCR

Kako izvući tekst iz skeniranih PDF-a pomoću Aspose.OCR

Izvlačenje teksta iz skeniranih ili slikovitih PDF datoteka koje se koriste za zahtjev za složenim radnim tokovima ili skupim ručnim radom. Uz Aspose.OCR Scanned PDF to Text za .NET, možete automatizirati ovaj proces, pretvaranjem PDF-a u tražljiv i uređiv tekst s samo nekoliko redova koda.

Real-svjetski problem

Organizacije često dobivaju ugovore, izvješća ili arhive kao skenirane PDF-ove. ručno kopiranje teksta ili pretraživanje unutar tih dokumenata je dosadno i pogrešno, usporavajući usklađenost, arhiviranje i projekte digitalne transformacije.

Pregled rješenja

ASPOSE.OCR za .NET omogućuje vam da rasporedite skenirane PDF-ove – pretvarajući ih u tekst ili pretraživačke PDF, čineći informacije pristupačnim, indeksiranim i spremnim za digitalne tokove rada.

Preduzeća

Prije nego što počnete, pobrinite se da imate:

  • Visual Studio 2019 ili kasnije
  • .NET 6.0 ili noviji (ili .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
  • Osnovno znanje C#
PM> Install-Package Aspose.OCR

Korak po korak provedba

Korak 1: Instaliranje i konfiguracija Aspose.OCR

Dodajte paket NuGet i referencu Aspose.OCR:

using Aspose.OCR;

Korak 2: Dodajte svoje skenirane PDF datoteke

Stvorite OcrInput objekt za PDF ulazak i dodajte skenirane PDF datoteke.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Korak 3: Konfigurirajte postavke prepoznavanja

Konfigurirajte jezik i druge postavke prepoznavanja kako bi se prilagodili vašim dokumentima.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Korak 4: Provedite proces prepoznavanja

Prepoznajte tekst iz vaših skeniranih PDF-a:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Korak 5: Sačuvajte ili izvozite prepoznatljiv tekst

Izvoz prepoznatljivog teksta u datoteke ili pretvaranje rezultata u pretraživačke PDF-ove.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Korak 6: Dodajte rješavanje pogrešaka

Preuzmite prepoznavanje u pokušajnom/prijateljskom bloku za čvrstoću.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Korak 7: Optimizacija velikih ili višestrukih PDF-ova

  • Proizvodnja PDF stranica po stranici za velike datoteke
  • Koristite visoke kvalitete skeniranja za najbolje rezultate
  • Batch proces u paralelnom obliku za velike kolekcije
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Korak 8: Potpuni radni primjer

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Korištenje slučajeva i aplikacija

Digitalni arhiviranje

Konvertirati cjelokupne knjižnice skeniranih dokumenata u tražljive, indeksirane datoteke za usklađenost i upravljanje znanjima.

Upravljanje pravom i ugovorom

Iz PDF-a izvlačite ugovorne odredbe ili uvjete za reviziju, automatizaciju ili digitalni potpis.

Streamline pretraživanje dokumenata

Omogućite brzo crtanje punog teksta u arhivima, bazama znanja ili datotekama slučaja.

Zajednički izazovi i rješenja

Izazov 1: Niska kvaliteta ili skidanje skeniranja

Rješenje: Koristite predprocesne filtre i visoke kvalitete skeniranja gdje je to moguće.

Izazov 2: višejezični PDF-ovi

Rješenje: Postavite jezik u postavkama prepoznavanja ili procesu s više opcija jezika.

Izazov 3: Vrlo veliki PDF datoteke

Rješenje: Proizvodnja u paketima ili po stranici i praćenje upotrebe memorije.

Razmatranje učinkovitosti

  • Koristite optimalni DPI (300+) za skenirane PDF-ove
  • Batch proces za najbolji prijelaz
  • Uklanjanje OCR objekata i zatvorenih rukavica datoteke

Najbolje prakse

  • Validacija OCR izlaska prije daljnje automatizacije
  • Organizacija i kopiranje originalnih PDF datoteka
  • Koristite ispravan SaveFormat za svoj radni protok
  • Redovito ažurirati Aspose.OCR za nove PDF funkcije

Napredni scenariji

Scenarij 1: Iz PDF-a izvadite samo određene stranice

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenarij 2: Izvoz u više formata

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

zaključak

Aspose.OCR za .NET omogućuje pretvaranje skeniranih PDF-a u aktivne tekstove i pretraživačke datoteke – uklanjajući ručni ulaz i čineći informacije dostupne cijeloj organizaciji.

Za više detalja i primjera, pogledajte Aspose.OCR za .NET API reference .

 Hrvatski