Cum de a extrage text din PDF-uri scanate cu Aspose.OCR

Cum de a extrage text din PDF-uri scanate cu Aspose.OCR

Extragerea textului din fișierele PDF scanate sau bazate pe imagini utilizate pentru a necesita fluxuri de lucru complexe sau munca manuală costisitoare. cu Aspose.OCR Scaned PDF la Text pentru .NET, puteți automatiza acest proces, convertind PDF-urile în text de căutare și editabil cu doar câteva linii de cod.

Problema lumii reale

Organizațiile primesc adesea contracte, rapoarte sau arhive ca PDF-uri scanate. copierea manuală a textului sau căutarea în interiorul acestor documente este plictisitoare și eronată, încetinind conformitatea, arhivarea și proiectele de transformare digitală.

Soluție de ansamblu

Aspose.OCR pentru .NET vă permite să colectați procesul de scanare a PDF-urilor – transformându-le în text sau în PDF care pot fi căutate, făcând informațiile accesibile, indexabile și pregătite pentru fluxurile de lucru digitale.

Prevederile

Înainte de a începe, asigurați-vă că aveți:

  • Visual Studio 2019 sau mai târziu
  • .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
  • Aspose.OCR pentru .NET de la NuGet
  • Cunoașterea C#
PM> Install-Package Aspose.OCR

Implementarea pas cu pas

Pasul 1: Instalați și configurați Aspose.OCR

Adăugați pachetul NuGet și referința Aspose.OCR:

using Aspose.OCR;

Pasul 2: Adăugați fișierele PDF scanate

Creați un obiect OcrInput pentru intrarea PDF și adăugați fișierele PDF scanate.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Pasul 3: Configurați setările de recunoaștere

Configurați limba și alte setări de recunoaștere pentru a vă potrivi documentele.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Pasul 4: Începeți procesul de recunoaștere

Recunoașteți textul din PDF-urile scanate:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Pasul 5: Salvați sau exportați textul recunoscut

Exportați textul recunoscut în fișiere sau convertiți rezultatele în PDF-uri care pot fi căutate.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Pasul 6: Adăugați gestionarea erorilor

Încărcați recunoașterea într-un bloc de încercare / capturare pentru robustitate.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Pasul 7: Optimizarea pentru PDF-uri mari sau multi pagini

  • Procesarea PDF-urilor pe pagină pentru fișierele mari
  • Utilizați scanuri de înaltă calitate pentru cele mai bune rezultate
  • Procesul de batch în paralel pentru colecții mari
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Pasul 8: Exemplu complet de lucru

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Folosește cazuri și aplicații

Arhivă digitală

Convertați întregi biblioteci de documente scanate în fișiere căutate, indexabile pentru conformitate și managementul cunoștințelor.

Administrarea legală și contractuală

Extrage clauzele contractuale sau termenii din PDF-uri pentru revizuire, automatizare sau semnare digitală.

Căutarea documentelor Streamlined

Permite căutarea rapidă a textului complet în arhive, baze de cunoștințe sau fișiere de caz.

Provocări și soluții comune

Provocare 1: Scanuri de calitate scăzută sau scadente

Soluție: Utilizați filtre preprocesante și scanări de înaltă calitate ori de câte ori este posibil.

Sfârșitul 2: PDF-uri în mai multe limbi

Soluție: Setarea limbii în setările de recunoaștere sau procesul cu mai multe opțiuni lingvistice.

Sfârșitul 3: fișiere PDF foarte mari

Soluție: Procesarea în batch sau pe pagină și monitorizarea utilizării memorii.

Considerații de performanță

  • Utilizați un DPI optim (300+) pentru PDF-urile scanate
  • Procesul de batch pentru cea mai bună transmisie
  • Dispunerea obiectelor OCR și a manevrelor de fișiere închise

Cele mai bune practici

  • Validați rezultatul OCR înainte de automatizare ulterioară
  • Organizarea și backup-ul fișierelor PDF originale
  • Utilizați SaveFormat corect pentru fluxul de lucru
  • Actualizarea regulată a Aspose.OCR pentru noile caracteristici PDF

Scenarii avansate

Scenariul 1: Extrageți doar pagini specifice dintr-un PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenariul 2: Exportarea în mai multe formate

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

concluziile

Aspose.OCR pentru .NET vă permite să convertiți PDF-urile scanate în fișiere de text și de căutare – eliminând intrarea manuală și făcând informațiile accesibile întregii organizații.

Pentru mai multe detalii și exemple, vedeți Aspose.OCR pentru .NET API Referință .

 Română