Як витягти табличні дані з зображень за допомогою Aspose.OCR

Як витягти табличні дані з зображень за допомогою Aspose.OCR

За допомогою Aspose.OCR Table to Text для .NET, ви можете автоматизувати екстракцію структурованих таблиць даних з зображень — заощаджуючи час, зменшуючи помилки, і дозволяючи безперервну інтеграцію з базами даних, Excel або інструментами звітності.

Реальні проблеми світу

Бізнес часто отримує таблиці в рахунках, звітах або формах, таких як зображення або сканування. Ручно перезавантажувати ці дані в шини або аналітичні платформи є неефективним і піддається помилкам, особливо для великих обсягів або складних таблиць.

Огляд рішення

ASPOSE.OCR Table to Text для .NET автоматизує розпізнавання таблиці та вилучення даних з зображень, точно ідентифікуючи структуру клітини та вміст. Це дозволяє перетворювати скановані або фотографійні таблички в структуровані, пошукові та редагувальні формати з мінімальним кодом.

Передумови

Перед початком вам знадобиться:

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET від NuGet
  • Основні знання C#
PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Завантажити та встановити Aspose.OCR

Додайте пакет Aspose.OCR і включайте необхідні номінаційні простори:

using Aspose.OCR;

Крок 2: Підготовка таблиць зображення вхід

Додайте один або кілька таблиць зображень до входу. для екстракції комплекту використовуйте кілька файлів.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Крок 3: Налаштування таблиці розпізнавання

Увімкніть режим виявлення столу, щоб забезпечити точне розпізнавання структури.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Крок 4: Виконайте процес розпізнавання столу

Визначте таблиці з конфігурованими налаштуваннями:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Крок 5: Експорт та використання табличних даних

Зберегти або обробляти визнані дані таблиці. Ви можете експортувати до тексту, Excel, JSON або інших форматів.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Крок 6: Використання помилок

Додайте виняткову справу для створення міцних рішень.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Крок 7: Оптимізація для складних таблиць

  • Використовуйте скани/фото з високою роздільною здатністю для точного виявлення структури
  • Тест з різними табличними розташуваннями (зміщені клітини, багатолінійні заголовки, кордони)
  • Налаштування розпізнавання, як це необхідно
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Крок 8: Повний робочий приклад

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Використання випадків та додатків

Фінансові звіти та рахунки

Витяг транзакційних таблиць з зображень в Excel або систем баз даних автоматично.

Дослідження та аналіз

Цифруйте таблиці з сканованих публікацій або анкетних форм для аналізу даних.

Автоматична міграція даних

Миграція документів спадщини або сканованих паперових записів в сучасні структуровані формати.

Спільні виклики та рішення

Виклик 1: Blurry або комплексні табличні зображення

Рішення: Використовуйте більш чіткі зображення або експеримент з попередньою обробкою для поліпшення розпізнавання структури.

Проблема 2: Нестандартні таблиці

Рішення: Тестувати і адаптувати налаштування для складних розташувань або безмежних таблиць.

Виклик 3: Великі смуги або змішані типи зображень

Рішення: Використовуйте обробку пакетів та сканування каталогів для автоматизації вилучення з багатьох файлів.

Виконання розглядів

  • Використовуйте добре освітлені, високі зображення
  • Батч-процес для ефективності
  • Використання об’єктів ОКР після використання

Найкращі практики

  • Завжди підтверджуйте експортовані табличні дані перед подальшою обробкою
  • Препроцесовані зображення для оптимального виявлення структури
  • Забезпечити і завантажити оригінальні скани / зображення
  • Використовуйте правильний формат експорту для робочого потоку (CSV, XLSX, JSON)

Розширені сценарії

Сценарій 1: Екстракція таблиці змішаного мови

settings.Language = Language.Chinese;

Сценарій 2: Поєднання таблиці та тексту

settings.DetectAreasMode = DetectAreasMode.COMBINE;

Заключення

ASPOSE.OCR Таблиця до тексту для .NET перетворює таблиці зображень в структуровані, редагувальні дані — немає необхідного ручного входу.

Для отримання додаткових прикладів та технічних деталей, відвідайте Aspose.OCR для .NET API Референт .

 Українська