Kā izņemt tekstu no skenētiem attēliem ar Aspose.OCR

Kā izņemt tekstu no skenētiem attēliem ar Aspose.OCR

Skanēšana līgumus, līgumu, grāmatu lapas vai vecos ierakstus parasti ražo attēla failus – nav rediģējams teksts. Aspose.OCR Scan to Text for .NET ļauj automātiski iegūt strukturētu, meklējamu tekstu no jebkura skenēta dokumenta vai foto, ietaupot neskaitāmas stundas manuālo ievadīšanu.

Reālā pasaules problēma

Papīra dokumenti, grāmatas un arhīvi bieži tiek glabāti kā attēli. to satura ekstrakcija digitālajiem darba plūsmiem, atbilstība vai pētījumi var būt lēni, dārgi un iespējami kļūdas, ja tas tiek darīts manuāli.

Risinājumu pārskats

Aspose.OCR Scan to Text for .NET konvertē attēlus no drukātām lapām uz lietojamu tekstu, apstrādā vienu kolonu, daudzkolonu un sarežģītus izkārtojumus. Darba plūsma ir ideāla līgumu, grāmatu, ierakstu un biznesa dokumentu digitalizācijai mūsdienu lietošanai.

Prerequisites

Nodrošiniet, ka jums ir:

  • Visual Studio 2019 vai vēlāk
  • .NET 6.0 vai jaunāks (vai .Net Framework 4.6.2+)
  • Aspose.OCR par .NET no NuGet
  • C# zināšanas
PM> Install-Package Aspose.OCR

Step-by-step īstenošana

1. solis: Uzstādīt un konfigurēt Aspose.OCR

Pievienojiet NuGet paketi un atsauci uz Aspose.OCR:

using Aspose.OCR;

2. solis: pievienojiet skenētos attēlus

Lejupielādēt vienu vai vairākus attēlu failus, kas tiks apstrādāti.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

3. solis: Iestatīt atpazīšanas iestatījumus

Tune par dokumentu valodu un izkārtojumu, kā nepieciešams.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

4. solis: Veicināt atpazīšanas procesu

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5. solis: glabāt vai apstrādāt izņemto tekstu

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

6. solis: pievienojiet kļūdu apstrādi

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7. solis: optimizēt dokumentu izkārtojumu

  • Lai iegūtu grāmatas vai rakstus, izmantojiet DetectAreasMode.DOCUMENT vai mēģiniet DetektAreaModa.AUTO
  • Preprocesijas attēli (crop, deskew) par labāko precizitāti
  • Batch process lieliem arhīviem
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

8. solis: pilns piemērs

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Izmantojiet gadījumus un pieteikumus

Līgums un vienošanās digitalizācija

Ātri digitalizējiet juridiskus vai biznesa dokumentus meklēšanas, arhivēšanas un digitālo darba plūsmu vajadzībām.

Grāmatu un arhīvu apstrāde

Konvertēt grāmatas lapas vai vēsturiskos ierakstus meklējamiem, rediģējamajiem formātiem.

Atbilstība un datu ekstrakcija

Iespēj automatizētas atbilstības pārbaudes, revīzijas vai teksta ekstrakcijas no mantojuma dokumentiem.

Kopīgi izaicinājumi un risinājumi

1. izaicinājums: zemas kvalitātes skenēšana vai apgrūtināts teksts

Lēmums: Izmantojiet priekšapstrādi vai uzlabojiet attēlus, lai uzlabotu OCR precizitāti.

2. izaicinājums: Multi-kolonu vai kompleksa izkārtojumi

Rīze: Iestatīt DetectAreasMode un testēt, lai labāk apstrādātu izkārtojumu.

3. izaicinājums: Batch digitalizācija

Lēmums: Izmanto batch apstrādi un resursu pārvaldību plaša mēroga darbam.

Darbības apsvērumi

  • Batch process ātrumam un skalabilitātei
  • Izmantojiet labas kvalitātes avotu attēlus
  • OCR priekšmeti pēc lietošanas

Labākās prakses

  • Vienmēr validējiet iegūtos tekstus pirms automātikas vai arhivēšanas
  • Izmantojiet pareizās atpazīšanas iestatījumus dokumentu veidam
  • Atsauksmes par oriģinālo skenēšanu
  • Tests OCR rezultāti uz paraugu komplektu pirms ražošanas

Augstākie scenāriji

1. scenārijs: daudzu valodu dokumentu ekstrakcija

settings.Language = Language.French;

2. scenārijs: eksports uz JSON integrācijai

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR Scan to Text for .NET ir ātrākais veids, kā pārvērst skenētos attēlus un papīra dokumentus lietojamā, rediģējamā teksta veidā – ideāls juridiskajiem, akadēmiskākiem vai uzņēmējdarbības projektiem.

Skatīt vairāk piemēru un tehnisko informāciju Aspose.OCR par .NET API atsauci .

 Latviski