Kā izņemt strukturētus datus no tabulām un veidlapām attēlos

Kā izņemt strukturētus datus no tabulām un veidlapām attēlos

Datu ekstrakcija no skenētiem tabulām vai aizpildītajām veidlapām ir būtiski biznesa automatizācijai, ziņošanai un atbilstībai. Aspose.OCR Table to Text for .NET vienkāršo šo procesu, precīzi atklājot šūnu un lauka struktūru un eksportējot uz rediģējamiem formātiem.

Reālā pasaules problēma

Uzņēmumi bieži saņem rēķinus, ziņojumus vai veidlapas, piemēram, attēlus vai skanējumus. Tabulāro datu vai formu lauku manuālais ievads ir lēns, kļūdainošs un dārgs.

Risinājumu pārskats

Ar tabulu uz tekstu .NET, jūs varat izrakstīt strukturētus datus – ieskaitot rindas, kolonnas un lauka vērtības – tieši no attēliem.

Prerequisites

  • Visual Studio 2019 vai vēlāk
  • .NET 6.0 vai jaunāks (vai .Net Framework 4.6.2+)
  • Aspose.OCR par .NET no NuGet
  • C# prasmes
PM> Install-Package Aspose.OCR

Step-by-step īstenošana

1. solis: Uzstādīt un konfigurēt Aspose.OCR

using Aspose.OCR;

2. solis: sagatavojiet tabulu vai veidlapas attēlus

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

3. solis: Iestatīt atpazīšanas iestatījumus tabulām / veidlapām

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

4. solis: Izrakstīt tabulu vai veidlapas datus

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5. solis: Struktūrēts eksports

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

6. solis: pārvaldīt kļūdas un apstiprināt rezultātus

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7. solis: Optimizēt tabulas/formas izmaiņas

  • Tests uz paraugiem ar dažādiem robežām, burtiem vai lauka plakātiem
  • Tune priekšapstrādes iestatījumi labākai atklāšanai

8. solis: automātiskā batch ekstrakcija

Pārstrādā visus attiecīgos attēlus mapē:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

9. solis: pilns piemērs

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Izmantojiet gadījumus un pieteikumus

Rēķinu un ziņojumu automatizācija

Iegūt finanšu datus grāmatvedības vai analīzes vajadzībām.

Aptauja un reģistrācijas veidlapas

Pull strukturētas atbildes CRM, ERP vai BI sistēmām.

atbilstība un revīzija

Automātiska datu iegūšana un validācija no iesniegtajiem veidlapām vai tabulām.

Kopīgi izaicinājumi un risinājumi

1. izaicinājums: Neregulāras galda robežas vai izkārtojumi

Lēmums: Izmantojiet priekšapstrādi un paraugu tonēšanu, lai uzlabotu detekciju.

2. izaicinājums: sajaukts saturs (teksts un tabulas)

Rīze: Run ar AUTO vai atsevišķi pēc attēla veida, lai iegūtu labākos rezultātus.

3. izaicinājums: sarežģītas formas ar daudzām laukiem

Rīkojums: Testēšana un tweak atpazīšana augsta blīvuma veidlapām.

Darbības apsvērumi

  • Tērauda atpazīšana ir CPU intensīvāka; monitoring batch darbs
  • Validē rezultātus kritiskajiem darba plūsmām
  • Batch eksports integrācijai ar citiem instrumentiem

Labākās prakses

  • Validējiet strukturētus datus uz paraugiem pirms skalēšanas
  • Aizsargāt un arhivēt gan avotu attēlus, gan iegūtos rezultātus
  • Aspose.OCR regulāri atjaunina precizitātes uzlabošanai
  • Tune iestatījumi jauniem dokumentu izkārtojumiem

Augstākie scenāriji

1. scenārijs: Eksportēšana uz datubāzi vai BI rīkiem

// Use JSON or Excel export for integration with data pipelines

Scenārija 2: Reālā laika ekstrakcija tīmekļa lietojumprogrammās

// Integrate extraction logic into ASP.NET or workflow API

Conclusion

Aspose.OCR Table to Text for .NET ļauj automatizēt strukturētu datu ekstrakciju no attēliem un veidlapām, atbalstot visu no biznesa automācijas līdz atbilstībai un analīzei.

Lai iegūtu uzlabotas tabulas ekstrakcijas funkcijas, apmeklējiet Aspose.OCR par .NET API atsauci .

 Latviski