Како извући табеле податке из слика са Aspose.OCR

Како извући табеле податке из слика са Aspose.OCR

Екстракција табела из скенираних или фотографисаних слика је често ручна, грешка-прона процес. са Аппосе.ОЦР Табелом за текст за .НЕТ, можете аутоматски екстрактирати структуриране табели података из слика – штеди време, смањује грешке, и омогућава беспрекорно интегрисање са базама подаци, Еццел, или алата за извештавање.

Реал светски проблем

Бизниси често добијају табеле у рачунима, извештајима или обрасцима као слике или скенирање. ручно поновно убацивање ових података у шифрове или аналитичке платформе је неефикасно и изазива грешке, посебно за велике количине или сложене табели.

Преглед решења

ASPOSE.OCR Table to Text for .NET automatizuje prepoznavanje tablica i uklanjanje podataka iz slika, precizno identifikujući strukturu ćelija i sadržaj.To vam omogućava da pretvorite skenirane ili snimljene tablice u strukturirane, pretražive i uređujuće formate sa minimalnim kodom.

Принципи

Пре него што почнете, потребно вам је:

  • Visual Studio 2019 или касније
  • .NET 6.0 или новији (или .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
  • Основни знања Ц #
PM> Install-Package Aspose.OCR

Корак по корак спровођење

Корак 1: Инсталирајте и конфигуришете Aspose.OCR

Додајте пакету Aspose.OCR и укључите неопходне именоване просторе:

using Aspose.OCR;

Корак 2: Припремите табеле слике

Додајте једну или више слике табела у свој улаз. за екстракцију бацх, користите више датотека.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Корак 3: Конфигуришите подешавања распознавања табеле

Омогућава режим откривања стола како би се осигурало да је структура прецизно препозната.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Корак 4: Покрените процес препознавања стола

Препознајте табеле са конфигурисаним подешавањама:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Корак 5: Извоз и коришћење табела података

Сачувати или обрадити препознате табеле податке. можете извозити у текст, Екцел, ЈСОН, или други формати.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Корак 6: Додајте третман грешака

Додајте обраду изузетка за изградњу издржљивих решења.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Корак 7: Оптимизација за сложене табеле

  • Користите скене / фотографије високе резолуције за прецизну детекцију структуре
  • Тест са различитим распоредом стола (мешане ћелије, мулти-лине глави, границе)
  • Подешавање распореда препознавања ако је потребно
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Корак 8: Потпуни радни пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Коришћење случајева и апликација

Финансијски извештаји и рачуни

Аутоматски извлачите трансакцијске табеле из слика у Екцел или систем базе података.

Истраживање и анализа

Дигитализација табела из скенираних публикација или анкетних обрасца за анализу података.

Аутоматска миграција података

Мигрирајте документе о наслеђивању или скениране папирне записе у модерне структуриране формате.

Заједнички изазови и решења

Проблем 1: Блури или сложене слике стола

Решење: Користите јасније слике или експеримент са препроцесирањем како бисте побољшали препознавање структуре.

Проблем 2: Нестандартни распоред стола

Решење: Тест и прилагођавање подешавања за сложене распореде или безграничне табеле.

Проблем 3: Велики батови или мешани типови слике

Решење: Користите обраду бацх и скенирање директоријума да бисте аутоматски извукли многе датотеке.

Размишљање о перформанси

  • Користите добро осветљене, високе слике
  • Батцх процес за ефикасност
  • Постављање ОЦР објеката након употребе

Најбоља пракса

  • Увек валидирајте извозне табелне податке пре даљег обраде
  • Препроцес слике за оптималну детекцију структуре
  • Безбедно и резервно оригиналне скенирање / слике
  • Koristite pravu formatu za izvoz za vaš radni tok (CSV, XLSX, JSON)

Напредни сценарио

Сценарио 1: Екстракција мешовитог језика

settings.Language = Language.Chinese;

Сценарио 2: Комбинација табела и текстуалне екстракције

settings.DetectAreasMode = DetectAreasMode.COMBINE;

Закључак

Aspose.OCR Табела у текст за .NET претвара сличне табеле у структуриране, уређујуће податке – нема потребе за ручним улазом.

За више примера и техничких детаља, посетите Aspose.OCR за .NET API референце .

 Српски