Како извући табеле и табуларне податке из слика са Aspose.OCR

Како извући табеле и табуларне податке из слика са Aspose.OCR

Истраживање табела из слика, обрасца или скенираних извештаја је изазовно – ручно ретипирање је споро и без грешака.Аппозе.ОЦР Табеле за текст за .НЕТ аутоматизује екстракцију и структурирање табларних података из слике и фотографија.

Реал светски проблем

Финансијске изјаве, обрасци истраживања и научни резултати су често заробљени у скенираним табелима или сликама. ручно рекреирање ових података губи сат времена и ризикује да уведе грешке.

Преглед решења

Aspose.OCR za .NET može precizno detektirati, izvaditi i pretvoriti tabele iz slika ili skeniranih PDF-a u strojno čitljive formate – savršene za Excel, izveštaj ili automatizaciju tokova rada.

Принципи

  • Visual Studio 2019 или касније
  • .NET 6.0 или новији (или .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
  • Основни знања Ц #
PM> Install-Package Aspose.OCR

Корак по корак спровођење

Корак 1: Инсталирајте и конфигуришете Aspose.OCR

using Aspose.OCR;

Корак 2: Скенирање или фотографисање слика са табелама

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Корак 3: Конфигуришите подешавања распознавања табеле

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Корак 4: Покрените процес екстракције стола

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Корак 5: Експорт табела података

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Корак 6: Додајте обраду грешака и валидацију

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Корак 7: Оптимизација за сложене, ротиране или мулти-странице табеле

  • Препроцесује слике за дескеу или узгој
  • Користите скене високе резолуције или фотографије
  • За вишестранице ПДФ-а, додајте сваку страницу као одвојени унос
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Корак 8: Потпуни пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Коришћење случајева и апликација

Финансијски и научни извештај

Истражите табеле из финансијских извештаја, резултата лабораторије или истраживачких докумената за инстантну анализу у Екцелу.

Истраживање и обрада облика

Дигитализација табела из скенираних обрасца, контролних листа или цензура.

Automatizacija tokova rada

Подајте структуриране табелне податке директно у пословне апликације, БИ алате или базе података.

Заједнички изазови и решења

Проблем 1: лоша квалитет или сложене табеле

Решење: Користите слике са високим резоном и тестирајте узорке. Препроцес за побољшање јасноће.

Проблем 2: Ротирајуће или прекинуте табеле

Решење: Дескевирајте слике пре обраде; користите DetectAreasMode.TABLE.

Проблем 3: Мулти-странице извештаја

Решење: Додајте сваку страницу као одвојени улаз за обраду бацх-а.

Размишљање о перформанси

  • Батцх процес за брзину
  • Користите висококвалитетне скене / фотографије
  • На располагању ОЦР објеката након великих трка

Најбоља пракса

  • Проверите производњу пре интеграције
  • Подешавање распореда за препознавање табела као што је потребно
  • Оригинални и дигитални подаци
  • Тест са стварним узорцима пре постављања

Напредни сценарио

Сценарио 1: Мулти-језична табела екстракција

settings.Language = Language.German;

Сценарио 2: Експорт у ЈСОН за цеви података

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Закључак

ASPOSE.OCR Tabela za tekst za .NET pretvara slike i skeniranje u aktivne, strukturirane podatke tabele – spremne za analizu, izveštaj i automatizaciju.

Види више табела препознавање код узорка у Aspose.OCR за .NET API референце .

 Српски