Как да се извличат таблици и таблични данни от изображения с Aspose.OCR

Как да се извличат таблици и таблични данни от изображения с Aspose.OCR

Извличането на таблици от изображения, форми или скенирани отчети е предизвикателство – ръчното ретипиране е бавно и предпазва от грешки. Aspose.OCR Table to Text for .NET автоматизира извлечването и структурирането на табелни данни от снимки и снимки.

Реални световни проблеми

Финансовите изявления, формулярите за проучване и научните резултати често са заловени в скенираните таблици или изображения. ръчно възпроизвеждане на тези данни губи часове и рискове от допускане на грешки.

Преглед на решението

ASPOSE.OCR за .NET може точно да открива, извлича и конвертира таблици от изображения или скенирани PDF файлове в машинно-читаеми формати – перфектни за Excel, докладване или автоматизация на работния поток.

Предупреждения

  • Visual Studio 2019 или по-късно
  • .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
  • ASPOSE.OCR за .NET от NuGet
  • Основни познания за C#
PM> Install-Package Aspose.OCR

Стъпка по стъпка изпълнение

Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR

using Aspose.OCR;

Стъпка 2: Скениране или снимки, съдържащи таблици

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Стъпка 3: Конфигуриране на настройките за разпознаване на таблицата

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Стъпка 4: Извършете процеса на извличане на масата

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Стъпка 5: Експортни таблични данни

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Стъпка 6: Добавяне на обработка на грешки и валидиране

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Стъпка 7: Оптимизиране на сложни, ротирани или многострани таблици

  • Препроцесиране на изображения за отглеждане или култивиране
  • Използвайте скениране с висока резолюция или снимки
  • За многострани PDF, добавете всяка страница като отделен вход
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Стъпка 8: Допълнителен пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Използване на случаи и приложения

Финансови и научни доклади

Извлечете таблици от финансови отчети, лабораторни резултати или изследователски документи за незабавен анализ в Excel.

Изследване и форма на обработка

Цифровизирайте таблиците от скенираните формуляри, списъци с проверка или записи от цензура.

Автоматизация на работния поток

Изпратете структурирани таблични данни директно в бизнес приложения, BI инструменти или бази данни.

Съвместни предизвикателства и решения

Предизвикателство 1: Слабо качество или сложни таблици

Решение: Използвайте изображения с висок рейтинг и тествайте на шаблони.

Предизвикателство 2: Ротирани или разкъсани таблици

Решение: Премахване на изображения преди обработка; използвайте DetectAreasMode.TABLE.

Предизвикателство 3: Многостранен доклад

Решение: Добавете всяка страница като отделен вход за обработка на партиди.

Преглед на изпълнението

  • Процесът на бач за скорост
  • Използвайте висококачествени скани / снимки
  • На разположение на ОКР обекти след големи състезания

Най-добрите практики

  • Валидиране на производството преди интеграцията
  • Настройки за разпознаване на таблицата, ако е необходимо
  • Оригинални и дигитални данни
  • Тест с реални проби преди поставяне

Разширени сценарии

Сценарий 1: Многоезична маса екстракция

settings.Language = Language.German;

Сценарий 2: Експорт до JSON за тръби за данни

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

заключение

ASPOSE.OCR Table to Text за .NET превръща изображенията и сканирането в действащи, структурирани таблични данни – готови за анализ, докладване и автоматизация.

Вижте повече проби от код за разпознаване на таблицата в Aspose.OCR за .NET API Референт .

 Български