Как да се извличат таблици и таблични данни от изображения с Aspose.OCR
Извличането на таблици от изображения, форми или скенирани отчети е предизвикателство – ръчното ретипиране е бавно и предпазва от грешки. Aspose.OCR Table to Text for .NET автоматизира извлечването и структурирането на табелни данни от снимки и снимки.
Реални световни проблеми
Финансовите изявления, формулярите за проучване и научните резултати често са заловени в скенираните таблици или изображения. ръчно възпроизвеждане на тези данни губи часове и рискове от допускане на грешки.
Преглед на решението
ASPOSE.OCR за .NET може точно да открива, извлича и конвертира таблици от изображения или скенирани PDF файлове в машинно-читаеми формати – перфектни за Excel, докладване или автоматизация на работния поток.
Предупреждения
- Visual Studio 2019 или по-късно
- .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
- ASPOSE.OCR за .NET от NuGet
- Основни познания за C#
PM> Install-Package Aspose.OCR
Стъпка по стъпка изпълнение
Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR
using Aspose.OCR;
Стъпка 2: Скениране или снимки, съдържащи таблици
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Стъпка 3: Конфигуриране на настройките за разпознаване на таблицата
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Стъпка 4: Извършете процеса на извличане на масата
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Стъпка 5: Експортни таблични данни
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Стъпка 6: Добавяне на обработка на грешки и валидиране
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Стъпка 7: Оптимизиране на сложни, ротирани или многострани таблици
- Препроцесиране на изображения за отглеждане или култивиране
- Използвайте скениране с висока резолюция или снимки
- За многострани PDF, добавете всяка страница като отделен вход
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Стъпка 8: Допълнителен пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Използване на случаи и приложения
Финансови и научни доклади
Извлечете таблици от финансови отчети, лабораторни резултати или изследователски документи за незабавен анализ в Excel.
Изследване и форма на обработка
Цифровизирайте таблиците от скенираните формуляри, списъци с проверка или записи от цензура.
Автоматизация на работния поток
Изпратете структурирани таблични данни директно в бизнес приложения, BI инструменти или бази данни.
Съвместни предизвикателства и решения
Предизвикателство 1: Слабо качество или сложни таблици
Решение: Използвайте изображения с висок рейтинг и тествайте на шаблони.
Предизвикателство 2: Ротирани или разкъсани таблици
Решение: Премахване на изображения преди обработка; използвайте DetectAreasMode.TABLE.
Предизвикателство 3: Многостранен доклад
Решение: Добавете всяка страница като отделен вход за обработка на партиди.
Преглед на изпълнението
- Процесът на бач за скорост
- Използвайте висококачествени скани / снимки
- На разположение на ОКР обекти след големи състезания
Най-добрите практики
- Валидиране на производството преди интеграцията
- Настройки за разпознаване на таблицата, ако е необходимо
- Оригинални и дигитални данни
- Тест с реални проби преди поставяне
Разширени сценарии
Сценарий 1: Многоезична маса екстракция
settings.Language = Language.German;
Сценарий 2: Експорт до JSON за тръби за данни
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
заключение
ASPOSE.OCR Table to Text за .NET превръща изображенията и сканирането в действащи, структурирани таблични данни – готови за анализ, докладване и автоматизация.
Вижте повече проби от код за разпознаване на таблицата в Aspose.OCR за .NET API Референт .