Как да извлечем таблични данни от изображения с Aspose.OCR

Как да извлечем таблични данни от изображения с Aspose.OCR

Извличането на таблици от скенирани или снимани изображения често е ръчен, прозрачен процес. С Aspose.OCR Table to Text за .NET, можете да автоматизирате извлечването на структурирани таблични данни от картини – спестяване на време, намалява грешките и позволява безпроблемна интеграция с бази данни, Excel или инструменти за отчитане.

Реални световни проблеми

Бизнесът често получава таблици в фактури, отчети или формуляри като изображения или сканиране. ръчно преинтегриране на тези данни в шифрове или аналитични платформи е неефективно и предпазливо от грешки, особено за големи обеми или сложни таблица.

Преглед на решението

ASPOSE.OCR Table to Text за .NET автоматизира разпознаването на таблици и извличането на данни от изображения, точно идентифициране на клетъчната структура и съдържание. Това ви позволява да преобразувате сканираните или фотографирани таблички в структурирани, търсещи и редактируеми формати с минимален код.

Предупреждения

Преди да започнете, ще трябва:

  • Visual Studio 2019 или по-късно
  • .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
  • ASPOSE.OCR за .NET от NuGet
  • Основни познания за C#
PM> Install-Package Aspose.OCR

Стъпка по стъпка изпълнение

Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR

Добавете пакета Aspose.OCR и включете необходимите имена:

using Aspose.OCR;

Стъпка 2: Подгответе таблични изображения

Добавете една или повече таблични изображения към входа си.За екстракция на партида, използвайте няколко файла.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Стъпка 3: Конфигуриране на настройките за разпознаване на таблицата

Осигуряване на режим за откриване на таблицата, за да се гарантира, че структурата е точно разпозната.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Стъпка 4: Извършете процеса на разпознаване на масата

Разберете таблици с конфигурираните настройки:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Стъпка 5: Износ и използване на таблични данни

Съхранявате или обработвате признатите таблични данни. можете да експортирате към текст, Excel, JSON или други формати.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Стъпка 6: Добавете обработка на грешки

Добавете обработка на изключения, за да изградите солидни решения.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Стъпка 7: Оптимизиране на сложни таблици

  • Използвайте скени / снимки с висока резолюция за точна структура
  • Тест с различни таблични оформления (месирани клетки, мулти-линейни глави, граници)
  • Настройки за разпознаване, ако е необходимо
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Стъпка 8: Допълнителен работен пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Използване на случаи и приложения

Финансови отчети и фактури

Автоматично извличайте транзакционни таблици от изображения в Excel или бази данни.

Изследвания и анализи

Цифровизирайте таблиците от скенираните публикации или анкетни формуляри за анализ на данни.

Автоматизирана миграция на данни

Мигрирайте наследствени документи или скенираните хартиени записи в съвременни структурирани формати.

Съвместни предизвикателства и решения

Предизвикателство 1: Блури или сложни таблични изображения

Решение: Използвайте по-ясни изображения или експеримент с предварителна обработка, за да подобрите разпознаването на структурата.

Предизвикателство 2: Нестандартни таблични оформления

Решение: Тест и настройка на настройките за сложни оформления или безгранични таблици.

Предизвикателство 3: Големи батерии или смесени видове изображения

Решение: Използвайте обработка на комплекти и сканиране на директории, за да автоматизирате екстракцията от много файлове.

Преглед на изпълнението

  • Използвайте добре осветени, високи изображения
  • Батч процес за ефективност
  • Използване на OCR предмети след употреба

Най-добрите практики

  • Винаги валидирайте изнесените таблични данни преди по-нататъшна обработка
  • Препроцесиране на изображения за оптимално откриване на структура
  • Сигурни и резервни оригинални скани/изображения
  • Използвайте правилния формат за износ за вашия работен поток (CSV, XLSX, JSON)

Разширени сценарии

Сценарий 1: Извличане на смесена езикова маса

settings.Language = Language.Chinese;

Сценарий 2: Съчетаване на таблица и извличане на текст

settings.DetectAreasMode = DetectAreasMode.COMBINE;

заключение

ASPOSE.OCR Table to Text за .NET преобразува таблици с изображения в структурирани, редактируеми данни – не се изисква ръчен вход. ускоряване на финансовите отчети, анализа и цифровото архивиране с точна, автоматизирана таблична екстракция.

За повече подробности и технически данни посетете Aspose.OCR за .NET API Референт .

 Български