Kā izņemt tabulas un tabulāro datus no attēliem ar Aspose.OCR

Kā izņemt tabulas un tabulāro datus no attēliem ar Aspose.OCR

Tabulu ekstrakcija no attēliem, veidlapām vai skenētiem ziņojumiem ir izaicinoša – manuālais retipings ir lēns un kļūdainošs. Aspose.OCR Tabula uz tekstu .NET automātiski iegūst un strukturē tabulas datus no fotogrāfijām un fotogrāfiem.

Reālā pasaules problēma

Finanšu pārskati, aptaujas veidlapas un zinātniskie rezultāti bieži tiek ieslēgti skenētajās tabulās vai attēlos. manuāli atjaunojot šos datus, tiek tērēti stundu un riski, kas rada kļūdas.

Risinājumu pārskats

Aspose.OCR for .NET var precīzi atklāt, izrakstīt un konvertēt tabulas no attēliem vai skenētiem PDF formātos, kas ir automātiski lasāms - perfekti Excel, ziņošanas vai darba plūsmas automatizācijai.

Prerequisites

  • Visual Studio 2019 vai vēlāk
  • .NET 6.0 vai jaunāks (vai .Net Framework 4.6.2+)
  • Aspose.OCR par .NET no NuGet
  • C# zināšanas
PM> Install-Package Aspose.OCR

Step-by-step īstenošana

1. solis: Uzstādīt un konfigurēt Aspose.OCR

using Aspose.OCR;

2. solis: skenēt vai fotografēt attēlus, kas satur tabulas

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

3. solis: Iestatīt tabulas atpazīšanas iestatījumus

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

4. solis: Izveidojiet galda ekstrakcijas procesu

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5. solis: eksporta tabulas dati

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

6. solis: pievienojiet kļūdu apstrādi un validāciju

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7. solis: Optimizējiet kompleksas, rotētas vai daudzu lapu tabulas

  • Preprocess attēli uz deskew vai crop
  • Izmantojiet augstas izšķirtspējas skenēšanu vai fotogrāfijas
  • Vairākas lapas PDF, pievienojiet katru lapu kā atsevišķu ievadījumu
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

8. solis: pilns piemērs

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Izmantojiet gadījumus un pieteikumus

Finanšu un zinātnisko ziņošanu

Izvadīt tabulas no finanšu pārskatiem, laboratorijas rezultātiem vai pētījumu dokumentiem tūlītējai analīzei Excel.

Aptauja un formas apstrāde

Digitalizējiet tabulas no skenētiem veidlapām, pārbaudes saraksta vai cenzūras ierakstiem.

Darba plūsmas automatizācija

Saglabā strukturētus tabulas datus tieši jūsu biznesa lietojumprogrammās, BI rīkos vai datu bāzēs.

Kopīgi izaicinājumi un risinājumi

1. izaicinājums: slikta kvalitāte vai sarežģītas tabulas

Rīze: Izmantojiet augstas kvalitātes attēlus un pārbaudiet paraugu komplektos.

2. izaicinājums: apgrieztas vai izkropļotas tabulas

Rīkojums: Izveidojiet attēlus pirms apstrādes; izmantojiet DetectAreasMode.TABLE.

Izteikums 3: Daudzu lapu ziņojumi

Rīze: Pievienojiet katru lapu kā atsevišķu ievadījumu batch apstrādei.

Darbības apsvērumi

  • Batch process ātrumam
  • Izmanto augstas kvalitātes skenēšanas/fotogrāfijas
  • OCR objektu pieejamība pēc lieliem braucieniem

Labākās prakses

  • Pārbaudiet produkciju pirms integrācijas
  • Tune tabulas atpazīšanas iestatījumi, kā nepieciešams
  • Original un digitalizētie dati
  • Pārbaudiet ar reāliem paraugiem pirms uzstādīšanas

Augstākie scenāriji

Scenārija 1: Daudzvalodu galda ekstrakcija

settings.Language = Language.German;

2. scenārijs: Datu cauruļvadu eksports uz JSON

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR Table to Text for .NET pārvērš attēlus un skanējumus darbināmiem, strukturētiem tabulas datiem – gatavi analīzei, ziņošanai un automatizācijai.

Skatīt vairāk tabulas atpazīšanas kodu paraugus Aspose.OCR par .NET API atsauci .

 Latviski