Як витягти таблиці та табличні дані з зображень за допомогою Aspose.OCR

Як витягти таблиці та табличні дані з зображень за допомогою Aspose.OCR

Екстракція таблиць з зображень, форм або сканованих звітів є складною – ручний ретипінг повільний і без помилок. ASPOSE.OCR Table to Text for .NET автоматизує витяг та структурує табличні дані з картин і фотографій.

Реальні проблеми світу

Фінансові звіти, форми опитування та наукові результати часто застрягли в сканованих таблицях або зображеннях. Ручно відновлення цих даних витрачає час і ризики введення помилок.

Огляд рішення

ASPOSE.OCR для .NET може точно виявити, витягнути та конвертувати таблиці з зображень або сканованих PDF-файлів у машинно чистий формат – ідеальний для Excel, звітування або автоматизації робочого потоку.

Передумови

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET від NuGet
  • Основні знання C#
PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Завантажити та встановити Aspose.OCR

using Aspose.OCR;

Крок 2: сканування або фотографії зображень, що містять таблиці

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Крок 3: Налаштування таблиці розпізнавання

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Крок 4: Виконайте процес екстракції столу

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Крок 5: Експортні таблиці даних

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Крок 6: Додайте справу з помилками та валідацію

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Крок 7: Оптимізація для комплексних, обертаних або багатосторонніх таблиць

  • Препроцесувати зображення до декеу або урожаю
  • Використовуйте високороздільні скани або фото
  • Для багатосторонніх PDF-файлів додайте кожну сторінку як окремий вхід.
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Крок 8: Повний приклад

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Використання випадків та додатків

Фінансові та наукові звіти

Витяг таблиць з фінансових звітів, результатів лабораторії або дослідницьких паперів для негайного аналізу в Excel.

Дослідження та форма обробки

Цифруйте таблиці з сканованих форм, списків перевірки або цензурних записів.

Автоматизація робочого потоку

Введіть структуровані табличні дані безпосередньо в ваші бізнес-приклади, BI-інструменти або бази даних.

Спільні виклики та рішення

Виклик 1: Низька якість або складні таблиці

Рішення: Використовуйте зображення високого рівня і випробуйте на зразках.

Виклик 2: обертані та розкидані таблиці

Рішення: Завантажити зображення перед обробкою; використовуйте DetectAreasMode.TABLE.

Створення Challenge 3: Multi-Page Reports

Рішення: Додайте кожну сторінку як окремий вхід для обробки пакетів.

Виконання розглядів

  • Батч-процес для швидкості
  • Використовуйте високоякісні скани/фото
  • Використання об’єктів ОКР після великих поїздок

Найкращі практики

  • Використання продуктів до інтеграції
  • Налаштування розпізнавання таблиці, як це необхідно
  • Завантажити оригінальні та цифрові дані
  • Тест з реальними зразками перед розміщенням

Розширені сценарії

Сценарій 1: Екстракція багатомовного столу

settings.Language = Language.German;

Сценарій 2: Експорт до JSON для трубопроводів даних

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Заключення

ASPOSE.OCR Table to Text для .NET перетворює зображення і сканування в діючі, структуровані табличні дані – готові для аналізу, звітування та автоматизації.

Переглянути більше зразків коду розпізнавання таблиці в Aspose.OCR для .NET API Референт .

 Українська