Hogyan lehet kivonni a strukturált adatokat a táblázatokból és formákból a képekben

Hogyan lehet kivonni a strukturált adatokat a táblázatokból és formákból a képekben

A szkennelt táblákból vagy kitöltött űrlapokból származó adatok kivonása elengedhetetlen az üzleti automatizálás, jelentés és megfelelés szempontjából.Az Aspose.OCR Table to Text for .NET egyszerűsíti ezt a folyamatot, pontosan kimutatja a sejt és a mező szerkezetét, és exportálja a szerkeszthető formátumokba.

Valódi problémák

A vállalkozások gyakran számlákat, jelentéseket vagy űrlapokat kapnak képek vagy szkennelések formájában. A táblázati adatok vagy formanyomtatványok kézi belépése lassú, hibás és költséges.

megoldás áttekintése

A Table to Text for .NET segítségével strukturált adatokat – köztük sorokat, oszlopokat és mezőértékeket – közvetlenül a képekből lehet kivonni.

előfeltételek

  • Visual Studio 2019 vagy újabb
  • .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET a NuGet-ről
  • Alapvető C# készségek
PM> Install-Package Aspose.OCR

lépésről lépésre megvalósítás

1. lépés: Az Aspose.OCR telepítése és konfigurálása

using Aspose.OCR;

2. lépés: Készítsen táblázatot vagy formanyomtatást

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

3. lépés: A táblák / űrlapok felismerési beállításai beállítása

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

4. lépés: Táblázat vagy formanyomtatvány kivonása

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5. lépés: A strukturált export

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

6. lépés: A hibák kezelése és az eredmények érvényesítése

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7. lépés: Optimalizálja a táblázat/formátum változásait

  • A különböző határokkal, betűtípusokkal vagy mezőhelyekkel rendelkező minták tesztelése
  • Tune előre feldolgozó beállítások a legjobb felismeréshez

8. lépés: Automatikus Batch kivonás

Az összes releváns kép feldolgozása egy mappában:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

9. lépés: Teljes példa

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Esetek és alkalmazások használata

Számlázás és jelentés automatizálása

Pénzügyi adatok kivonása számviteli vagy elemzési célokra.

Felmérési és regisztrációs formanyomtatványok

A CRM, az ERP vagy a BI rendszerek strukturált válaszai.

Megfelelés és ellenőrzés

A benyújtott űrlapokból vagy táblákból származó adatok automatikus kivonása és validálása.

Közös kihívások és megoldások

1. kihívás: szabálytalan asztali határok vagy elrendezések

** Megoldás:** Használja az előfeldolgozást és a mintát, hogy javítsa a felismerést.

2. kihívás: vegyes tartalom (szöveg és táblázat)

** Megoldás:** Autóval fut, vagy a legjobb eredmények eléréséhez képtípus szerint.

3. kihívás: összetett formák sok mezővel

** Megoldás:** A nagy sűrűségű formák tesztelése és felismerése.

A teljesítmény megfontolása

  • Az asztali felismerés CPU-intenzívebb; a monitor csomagtartó munkák
  • A kritikus munkafolyamatok érvényesítése
  • Batch export más eszközökkel való integrációhoz

Legjobb gyakorlatok

  • A strukturált adatok validálása a mintákon a skálázás előtt
  • Biztonságos és archiválja mind a forrásképeket, mind az extrahált kimeneteleket
  • Az Aspose.OCR rendszeresen frissül a pontosság javítása érdekében
  • Tune beállítások új dokumentum elrendezésekhez

fejlett forgatókönyvek

1. forgatókönyv: Az adatbázishoz vagy a BI eszközökhöz való export

// Use JSON or Excel export for integration with data pipelines

2. forgatókönyv: Valós idejű kivonás webes alkalmazásokban

// Integrate extraction logic into ASP.NET or workflow API

következtetések

Az ASPOSE.OCR Table to Text for .NET lehetővé teszi, hogy automatizálja a strukturált adatok kivonását a képekből és űrlapokból, támogatva mindent az üzleti automációtól a megfelelőségig és az elemzésig.

A fejlett asztali kivonási funkciókhoz látogasson el a Az ASPOSE.OCR a .NET API referenciájához .

 Magyar