Як витягти структуровані дані з таблиць і форм у зображеннях

Як витягти структуровані дані з таблиць і форм у зображеннях

Екстракція даних з сканованих таблиць або заповнених форм є необхідною для бізнес-автоматизації, звітування та дотримання. ASPOSE.OCR Table to Text for .NET ускладнює цей процес, точно виявляючи клітинну та поляну структуру і експортуючи до редагувальних форматів.

Реальні проблеми світу

Бізнес часто отримує рахунки, звіти або форми, як зображення або сканування. Ручний вхід табличних даних або форм полів повільний, без помилок, і дорогий у масштабі.

Огляд рішення

За допомогою таблиці до тексту для .NET можна витягувати структуровані дані, в тому числі рядки, колони та значення поля, безпосередньо з зображень.

Передумови

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET від NuGet
  • Основні навички C#
PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Завантажити та встановити Aspose.OCR

using Aspose.OCR;

Крок 2: Підготуйте таблицю або форму зображень

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Крок 3: Налаштування налаштувань розпізнавання для таблиць / форм

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Крок 4: Витяг таблиці або форми даних

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Крок 5: Експорт структурованого виходу

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Крок 6: Виправити помилки та підтвердити результати

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Крок 7: Оптимізація варіантів таблиці / форми

  • Тест на зразках з різними кордонами, шрифтами або полями
  • Налаштування попереднього обробки для кращого виявлення

Крок 8: Автоматичне видобуток батареї

Переробка всіх відповідних зображень в папці:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Крок 9: Повний приклад

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Використання випадків та додатків

Автоматизація рахунків та звітів

Витяг фінансових даних для бухгалтерського обліку або аналізу.

Опитування та реєстраційні форми

Використання структурних відповідей для систем CRM, ERP або BI.

відповідності та аудиту

Автоматичне вилучення та валідація даних з поданих форм або таблиць.

Спільні виклики та рішення

Виклик 1: Нерегулярні табличні кордони або розташування

Рішення: Використовуйте заздалегідь обробку та випробування для поліпшення виявлення.

Проблема 2: змішаний контент (текст і таблиці)

Рішення: Використовуйте AUTO або окремо за типом зображення для кращих результатів.

Виклик 3: Комплексні форми з багатьма полями

Рішення: Тест і розпізнавання для форм високої щільності.

Виконання розглядів

  • Розпізнавання столу є більш CPU-інтенсивним; моніторингові робочі місця
  • Визначення результатів для критичних робочих потоків
  • Батч експорт для інтеграції з іншими інструментами

Найкращі практики

  • Затвердити структуровані дані на зразках перед скасуванням
  • Забезпечити і архівувати як джерельні зображення, так і витягнуті результати
  • Регулярно оновлюйте Aspose.OCR для поліпшення точності
  • Налаштування Tune для нових оформлень документів

Розширені сценарії

Сценарій 1: Експорт до баз даних або BI інструментів

// Use JSON or Excel export for integration with data pipelines

Сценарій 2: Екстракція в реальному часі в веб-прикладах

// Integrate extraction logic into ASP.NET or workflow API

Заключення

ASPOSE.OCR Table to Text для .NET дозволяє автоматизувати структурований видобуток даних з зображень і форм, підтримуючи все від бізнес-автоматизації до відповідності та аналізу.

Для передових функцій екстракції столу, відвідайте Aspose.OCR для .NET API Референт .

 Українська