Cum de a extrage text din imagini scanate cu Aspose.OCR

Cum de a extrage text din imagini scanate cu Aspose.OCR

Scanarea contractelor, acordurilor, paginilor de cărți sau a vechilor înregistrări produce de obicei fișiere de imagine – nu text editabil. Aspose.OCR Scan la text pentru .NET vă permite să automatizați extragerea textului structurat, căutat din orice document sau fotografie scanate, economisește nenumărate ore de intrare manuală.

Problema lumii reale

Documentele de hârtie, cărțile și arhivele sunt adesea stocate ca imagini. extragerea conținutului lor pentru fluxurile de lucru digitale, conformitate sau cercetare poate fi lentă, costisitoare și predispusă la erori dacă se face manual.

Soluție de ansamblu

Aspose.OCR Scan to Text pentru .NET convertează imaginile paginilor imprimate în text utilizabil, gestionarea columnelor unice, multi-column și a layoutelor complexe. fluxul de lucru este perfect pentru digitalizarea contractelor, cărților, înregistrărilor și documentelor de afaceri pentru utilizare modernă.

Prevederile

Asigurați-vă că aveți:

  • Visual Studio 2019 sau mai târziu
  • .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
  • Aspose.OCR pentru .NET de la NuGet
  • Cunoașterea C#
PM> Install-Package Aspose.OCR

Implementarea pas cu pas

Pasul 1: Instalați și configurați Aspose.OCR

Adăugați pachetul NuGet și referința Aspose.OCR:

using Aspose.OCR;

Pasul 2: Adăugați imaginile scanate

Încărcați fișiere de imagine unice sau multiple pentru a fi prelucrate.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Pasul 3: Configurați setările de recunoaștere

Tune pentru limbajul documentului și layout după cum este necesar.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Pasul 4: Începeți procesul de recunoaștere

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Pasul 5: Salvați sau procesați textul extras

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Pasul 6: Adăugați gestionarea erorilor

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Pasul 7: Optimizarea layout-ului documentului

  • Pentru cărți sau articole, folosiți DetectAreasMode.DOCUMENT sau încercați detectSiteArea.AUTO
  • Imagini prelucrate (crop, deskew) pentru cea mai bună precizie
  • Procesul de batch pentru arhive mari
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Pasul 8: Exemplu complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Folosește cazuri și aplicații

Contractul și digitalizarea acordului

Digitizează rapid documentele juridice sau de afaceri pentru căutarea, arhivarea și fluxurile de lucru digitale.

Procesarea cărților și arhivelor

Convertați paginile de cărți sau înregistrările istorice în formate care pot fi căutate și editate.

Conformitate și extracție de date

Permite verificarea automată a conformității, auditul sau extragerea textului din documentele de moștenire.

Provocări și soluții comune

Sfârșitul 1: Scanarea de calitate scăzută sau textul prăbușit

Soluție: Utilizați prelucrarea prealabilă sau îmbunătățiți imaginile pentru o mai bună precizie OCR.

Challenge 2: Layouturi multiple sau complexe

Soluție: Ajustăm DetectAreasMode și testăm pentru cea mai bună gestionare a layout-ului.

Cuvânt cheie: Batch Digitization

Soluție: Utilizați procesarea batch-ului și gestionarea resurselor pentru locuri de muncă la scară largă.

Considerații de performanță

  • Procesul de batch pentru viteză și scalabilitate
  • Utilizați imagini de sursă de bună calitate
  • Dispunerea obiectelor OCR după utilizare

Cele mai bune practici

  • Verificați întotdeauna textul extras înainte de automatizare sau arhivare
  • Utilizați setările corecte de recunoaștere pentru tipul de document
  • Backup scanuri originale pentru referință
  • Rezultatele de testare OCR pe un set de eșantion înainte de producție

Scenarii avansate

Scenariul 1: Extragerea documentelor multilingve

settings.Language = Language.French;

Scenariul 2: Exportul la JSON pentru integrare

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

concluziile

Aspose.OCR Scan to Text pentru .NET este cea mai rapidă modalitate de a converti imaginile scanate și documentele de hârtie în text utilizabil, editabil – ideal pentru proiecte juridice, academice sau de afaceri.

Vezi mai multe exemple și detalii tehnice în Aspose.OCR pentru .NET API Referință .

 Română