Kaip ištraukti struktūrizuotus duomenis iš lentelių ir formų nuotraukose

Kaip ištraukti struktūrizuotus duomenis iš lentelių ir formų nuotraukose

Duomenų ištraukimas iš skenuojamų lentelių ar užpildytų formų yra būtinas verslo automatizavimui, ataskaitoms ir atitikčiai. „Aspose.OCR Table to Text for .NET“ supaprastina šį procesą, tiksliai nustato ląstelių ir lauko struktūrą ir eksportuoja į redaguojamus formatus.

Realaus pasaulio problemos

Verslas dažnai gauna sąskaitas, ataskaitas ar formas kaip nuotraukas ar skenavimus. rankiniu būdu įvesti lentelės duomenis ar formos laukus yra lėtas, klaidų grėsmė, ir brangus mastu.

Sprendimo apžvalga

Naudodami .NET lentelę į tekstą, galite iš nuotraukų tiesiogiai ištraukti struktūrizuotus duomenis, įskaitant eilutes, stulpelius ir lauko vertes.

Prerequisites

  • „Visual Studio 2019“ arba vėliau
  • .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
  • ASPOSE.OCR už .NET iš NuGet
  • Pagrindiniai C# įgūdžiai
PM> Install-Package Aspose.OCR

Žingsnis po žingsnio įgyvendinimas

1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR

using Aspose.OCR;

2 žingsnis: paruoškite lentelę arba formos nuotraukas

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

3 žingsnis: nustatyti atpažinimo nustatymus lentoms / formoms

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

4 žingsnis: išimkite lentelę arba formos duomenis

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5 žingsnis: struktūrizuotas eksportas

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

6 žingsnis: Spręsti klaidas ir patvirtinti rezultatus

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7 žingsnis: optimizuokite lentelės ir formos svyravimus

  • Testas ant pavyzdžių, turinčių skirtingas sienas, fontus ar lauko vietą
  • Tune išankstinio apdorojimo nustatymai geriausiam aptikimui

8 žingsnis: Automatinis batch ekstrakcija

Apdoroti visus atitinkamus vaizdus vienoje aplinkoje:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

9 žingsnis: pilnas pavyzdys

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Naudokite atvejus ir paraiškas

Sąskaitos ir ataskaitų automatizavimas

Finansiniai duomenys gaunami apskaitos ar analizės tikslais.

Tyrimo ir registracijos formos

Struktūrizuotas atsakas į CRM, ERP ar BI sistemas.

Atitikties ir audito

Automatinis duomenų ištraukimas ir patvirtinimas iš pateiktų formų ar lentelių.

Bendrieji iššūkiai ir sprendimai

1 iššūkis: nereguliarios lentelės ribos arba tvarkaraščiai

Išsprendimas: Naudokite išankstinį apdorojimą ir mėginių plovimą, kad pagerintumėte aptikimą.

Iššūkis 2: mišrus turinys (tekstas ir lentelės)

Išsprendimas: Veikia su AUTO arba atskirai pagal vaizdo tipą, kad gautumėte geriausius rezultatus.

Iššūkis 3: Kompleksinės formos su daugybe laukų

Išsprendimas: Aukštos tankio formų testavimo ir tvirto pripažinimo.

Veiksmingumo apžvalgos

  • Stalo atpažinimas yra intensyvesnis CPU; stebėti batch darbus
  • Kritinių darbo srautų rezultatų patvirtinimas
  • Batch eksportas integracijai su kitais įrankiais

Geriausios praktikos

  • Įvertinkite struktūrizuotus duomenis ant mėginių prieš skalavimą
  • Saugokite ir archyvuokite tiek šaltinio vaizdus, tiek ištrauktus išėjimus
  • Reguliariai atnaujinkite Aspose.OCR tikslumo patobulinimui
  • Tune nustatymai naujoms dokumentų išdėstymams

Išplėstiniai scenarijai

1 scenarijus: eksportuoti į duomenų bazę arba BI įrankius

// Use JSON or Excel export for integration with data pipelines

2 scenarijus: realaus laiko ekstrakcija žiniatinklio programose

// Integrate extraction logic into ASP.NET or workflow API

Conclusion

Aspose.OCR Table to Text for .NET leidžia automatizuoti struktūrizuotą duomenų ekstrakciją iš vaizdų ir formų, palaikant viską nuo verslo automatizavimo iki atitikties ir analizės.

Išplėstinių stalų ekstrakcijos funkcijų, apsilankykite ASPOSE.OCR už .NET API nuorodą .

 Lietuvių