Kaip pašalinti lenteles ir lentelių duomenis iš nuotraukų su Aspose.OCR

Kaip pašalinti lenteles ir lentelių duomenis iš nuotraukų su Aspose.OCR

Išimti lenteles iš vaizdų, formų ar skenuojamų ataskaitų yra sudėtinga – rankiniu būdu retyping yra lėtas ir klaidų priežastis. Aspose.OCR Table to Text for .NET automatuoja išimimą ir struktūrizavimą lentelių duomenis iš nuotraukų ir nuotraukų.

Realaus pasaulio problemos

Finansinės ataskaitos, apklausos formos ir moksliniai rezultatai dažnai užfiksuojami skenuojamose lentelėse ar nuotraukose. rankiniu būdu atkurti šiuos duomenis praranda valandas ir rizika sukelia klaidas.

Sprendimo apžvalga

Aspose.OCR .NET gali tiksliai aptikti, ištraukti ir konvertuoti lenteles iš vaizdų ar skanintų PDF į mašiną skaityti formatus – tobulas Excel, ataskaitų arba darbo srautų automatizavimo.

Prerequisites

  • „Visual Studio 2019“ arba vėliau
  • .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
  • ASPOSE.OCR už .NET iš NuGet
  • Pagrindinės C# žinios
PM> Install-Package Aspose.OCR

Žingsnis po žingsnio įgyvendinimas

1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR

using Aspose.OCR;

2 žingsnis: skenavimas arba nuotraukos, kuriose yra lentelių

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

3 žingsnis: nustatyti lentelės atpažinimo nustatymus

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

4 žingsnis: paleiskite stalų ekstrakcijos procesą

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5 žingsnis: eksporto lentelės duomenys

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

6 žingsnis: pridėti klaidų tvarkymą ir patvirtinimą

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7 žingsnis: optimizuokite kompleksines, apvalias arba daugialypės lenteles

  • Preprocesiniai vaizdai į deskew arba crop
  • Naudokite aukštos rezoliucijos skenus ar nuotraukas
  • Daugelio puslapių PDF, pridėti kiekvieną puslapį kaip atskirą įrašą
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

8 žingsnis: pilnas pavyzdys

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Naudokite atvejus ir paraiškas

Finansinė ir mokslinė ataskaita

Paimkite lenteles iš finansinių ataskaitų, laboratorijų rezultatų ar tyrimų dokumentų „Excel“ analizei.

Apklausos ir formos apdorojimas

Skaitmeninkite lenteles iš skenuojamų formų, patikrinimų sąrašų ar cenzūros įrašų.

Darbo srauto automatizavimas

Sukurkite struktūrizuotus lentelės duomenis tiesiogiai į jūsų verslo programas, BI įrankius ar duomenų bazes.

Bendrieji iššūkiai ir sprendimai

1 iššūkis: prastos kokybės arba sudėtingos lentelės

Išsprendimas: Naudokite aukštos raiškos vaizdus ir bandykite mėginių rinkinį.

2 iššūkis: apvalios arba nukreiptos lentelės

Rozoliucija: Prieš apdorojimą atsisiųskite vaizdus; naudokite DetectAreasMode.TABLE.

Iššūkis 3: daugialypės ataskaitos

Išsprendimas: Įveskite kiekvieną puslapį kaip atskirą indėlį pakuotės apdorojimui.

Veiksmingumo apžvalgos

  • Batch procesas greičiui
  • Naudokite aukštos kokybės skenavimus / nuotraukas
  • OCR objektų naudojimas po didelių lenktynių

Geriausios praktikos

  • Išleidimas prieš integraciją
  • Tune lentelės atpažinimo nustatymai, kaip reikia
  • Išsaugoti originalius ir skaitmeninius duomenis
  • Išbandykite realius mėginius prieš paleidžiant

Išplėstiniai scenarijai

1 scenarijus: daugiakalbė stalo ekstrakcija

settings.Language = Language.German;

2 scenarijus: duomenų vamzdžių eksportas į JSON

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Conclusion

ASPOSE.OCR lentelė į tekstą .NET paverčia vaizdus ir skenavimus į veiksmingus, struktūrizuotus lentelės duomenis – paruoštus analizei, ataskaitoms ir automatizavimui.

Žiūrėti daugiau lentelės atpažinimo kodo pavyzdžių ASPOSE.OCR už .NET API nuorodą .

 Lietuvių