Как да извлечем структурирани данни от таблици и форми в изображения

Как да извлечем структурирани данни от таблици и форми в изображения

Извличането на данни от сканирани таблици или попълнени формуляри е от съществено значение за бизнес автоматизация, докладване и съответствие. ASPOSE.OCR Table to Text for .NET ускорява този процес, точно откриване на клетката и структурата на полето и износ към редактируеми формати.

Реални световни проблеми

Бизнесът често получава фактури, отчети или формуляри като изображения или сканиране. ръчен внос на таблични данни или полета за формуляр е бавен, без грешки и скъп по мащаб.

Преглед на решението

С таблица до текст за .NET можете да извлечете структурирани данни – включително редове, колони и полеви стойности – директно от изображения. резултатите могат да бъдат изнесени в Excel, JSON или интегрирани с бази данни и платформи за автоматизация.

Предупреждения

  • Visual Studio 2019 или по-късно
  • .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
  • ASPOSE.OCR за .NET от NuGet
  • Основни умения на C#
PM> Install-Package Aspose.OCR

Стъпка по стъпка изпълнение

Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR

using Aspose.OCR;

Стъпка 2: Подгответе таблица или формулиране на изображения

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Стъпка 3: Конфигуриране на настройките за разпознаване на таблици / форми

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Стъпка 4: Извлечете таблица или формуляр данни

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Стъпка 5: Износ на структуриран изход

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Стъпка 6: Преодоляване на грешки и валидиране на резултатите

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Стъпка 7: Оптимизиране на таблица/форма вариации

  • Тест върху проби с различни граници, шрифтове или полеви плаценти
  • Настройки за предварителна обработка за най-добро откриване

Стъпка 8: Автоматично извличане на батерии

Обработване на всички релевантни изображения в една папка:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Стъпка 9: Допълнителен пример

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Използване на случаи и приложения

Автоматизиране на фактури и отчети

Извличане на финансови данни за счетоводство или анализ.

Форми за проучване и регистрация

Пул структурирани отговори за CRM, ERP или BI системи.

Съответствие и одит

Автоматично извличане и валидиране на данни от представените формуляри или таблици.

Съвместни предизвикателства и решения

Предизвикателство 1: Нерегулярни граници на масата или оформления

Решение: Използвайте предварително обработване и изваждане на проби, за да подобрите откриването.

Предизвикателство 2: Смесено съдържание (текст и таблици)

Решение: Извършване с AUTO или отделно по тип изображение за най-добри резултати.

Предизвикателство 3: Комплексни форми с много полета

Решение: Тест и твойно разпознаване за формати с висока плътност.

Преглед на изпълнението

  • Табелното разпознаване е по-интензивно от CPU; работата на батерията за мониторинг
  • Валидиране на изходите за критични работни потоци
  • Батч експорт за интеграция с други инструменти

Най-добрите практики

  • Валидиране на структурирани данни върху проби преди скалиране
  • Защита и архивиране както на източни изображения, така и на извлечени изходи
  • Актуализирайте Aspose.OCR редовно за подобряване на точността
  • Тънки настройки за нови оформления на документи

Разширени сценарии

Сценарий 1: Износ към база данни или BI инструменти

// Use JSON or Excel export for integration with data pipelines

Сценарий 2: Екстракция в реално време в уеб приложения

// Integrate extraction logic into ASP.NET or workflow API

заключение

ASPOSE.OCR Table to Text за .NET ви позволява да автоматизирате структурираното извличане на данни от изображения и форми, като поддържате всичко от бизнес автоматизация до съответствие и анализ.

За усъвършенствани функции за екстракция на маса, посетете Aspose.OCR за .NET API Референт .

 Български