Како извући структуриране податке из табела и облика у сликама

Како извући структуриране податке из табела и облика у сликама

Екстракција података из скенираних табела или испуњених обрасца је од суштинског значаја за пословну аутоматизацију, извештавање и усклађеност.Аппосе.ОЦР Табеле за текст за .НЕТ убрзава овај процес, тачно открива ћелијску и пољску структуру и извози у уређујуће формати.

Реал светски проблем

Бизниси често добијају рачуне, извештаје или обрасци као слике или скене. ручно уношење табеларних података или поља облика је споро, погрешно и скупо на скали.

Преглед решења

Са Табелом до тексту за .NET, можете извући структуриране податке – укључујући редове, колоне и вредности поља – директно из слика.

Принципи

  • Visual Studio 2019 или касније
  • .NET 6.0 или новији (или .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
  • Основне вештине Ц #
PM> Install-Package Aspose.OCR

Корак по корак спровођење

Корак 1: Инсталирајте и конфигуришете Aspose.OCR

using Aspose.OCR;

Корак 2: Припремите табеле или облике слике

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Корак 3: Подесите подешавања препознавања за табеле / обрасци

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Корак 4: Екстрактирајте табеле или податке о облику

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Корак 5: Извоз структурираног извоза

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Корак 6: Управљање грешкама и валидисање резултата

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Корак 7: Оптимизација за варијанте табеле / облика

  • Тест на узорцима са различитим границама, шрифтовима или пољским положајима
  • Тун препроцесирање подешавања за најбољу детекцију

Корак 8: Аутоматска екстракција бацх

Обрада свих релевантних слика у фасциклу:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Корак 9: Потпуни пример

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Коришћење случајева и апликација

Аутоматизација рачуна и извештаја

Истраживање финансијских података за рачуноводство или аналитику.

Истраживање и регистрација обрасца

Pull strukturirane odgovore za CRM, ERP ili BI sisteme.

Усклађеност и ревизија

Аутоматско извлачење и валидација података из поднетих обрасца или табела.

Заједнички изазови и решења

Проблем 1: Нерегуларне табелне границе или распореде

Решење: Користите препроцесирање и тунирање узорка како бисте побољшали откривање.

Проблем 2: Мешани садржај (текст и табеле)

Решење: Ради са ауто или одвојено по типу слике за најбоље резултате.

Проблем 3: Комплексне облике са многим пољима

Решење: Тест и твик препознавање за облике високе густине.

Размишљање о перформанси

  • Табела препознавање је више ЦПУ-интензивни; мониторинг бацх рад
  • Validacija ishodova za kritične tokove rada
  • Батцх извоз за интеграцију са другим алатима

Најбоља пракса

  • Валидирајте структуриране податке на узорцима пре скалирања
  • Безбедно и архивирајте и изворне слике и извучене излазе
  • Редовно ажурирајте Aspose.OCR за побољшање прецизности
  • Тун подешавања за нове распореде документа

Напредни сценарио

Сценарио 1: Експорт у базу података или БИ алате

// Use JSON or Excel export for integration with data pipelines

Сценарио 2: Екстракција у реалном времену у веб апликацијама

// Integrate extraction logic into ASP.NET or workflow API

Закључак

Aspose.OCR Table to Text for .NET omogućava automatizaciju strukturiranog izvlačenja podataka iz slika i obrazaca, podržavajući sve od poslovne automatizacije do usklađenosti i analize.

За напредне функције екстракције стола, посетите Aspose.OCR за .NET API референце .

 Српски