Как да извлечем таблични данни от изображения с Aspose.OCR
Извличането на таблици от скенирани или снимани изображения често е ръчен, прозрачен процес. С Aspose.OCR Table to Text за .NET, можете да автоматизирате извлечването на структурирани таблични данни от картини – спестяване на време, намалява грешките и позволява безпроблемна интеграция с бази данни, Excel или инструменти за отчитане.
Реални световни проблеми
Бизнесът често получава таблици в фактури, отчети или формуляри като изображения или сканиране. ръчно преинтегриране на тези данни в шифрове или аналитични платформи е неефективно и предпазливо от грешки, особено за големи обеми или сложни таблица.
Преглед на решението
ASPOSE.OCR Table to Text за .NET автоматизира разпознаването на таблици и извличането на данни от изображения, точно идентифициране на клетъчната структура и съдържание. Това ви позволява да преобразувате сканираните или фотографирани таблички в структурирани, търсещи и редактируеми формати с минимален код.
Предупреждения
Преди да започнете, ще трябва:
- Visual Studio 2019 или по-късно
- .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
- ASPOSE.OCR за .NET от NuGet
- Основни познания за C#
PM> Install-Package Aspose.OCR
Стъпка по стъпка изпълнение
Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR
Добавете пакета Aspose.OCR и включете необходимите имена:
using Aspose.OCR;
Стъпка 2: Подгответе таблични изображения
Добавете една или повече таблични изображения към входа си.За екстракция на партида, използвайте няколко файла.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
Стъпка 3: Конфигуриране на настройките за разпознаване на таблицата
Осигуряване на режим за откриване на таблицата, за да се гарантира, че структурата е точно разпозната.
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
Стъпка 4: Извършете процеса на разпознаване на масата
Разберете таблици с конфигурираните настройки:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Стъпка 5: Износ и използване на таблични данни
Съхранявате или обработвате признатите таблични данни. можете да експортирате към текст, Excel, JSON или други формати.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
Стъпка 6: Добавете обработка на грешки
Добавете обработка на изключения, за да изградите солидни решения.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Стъпка 7: Оптимизиране на сложни таблици
- Използвайте скени / снимки с висока резолюция за точна структура
- Тест с различни таблични оформления (месирани клетки, мулти-линейни глави, граници)
- Настройки за разпознаване, ако е необходимо
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
Стъпка 8: Допълнителен работен пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Използване на случаи и приложения
Финансови отчети и фактури
Автоматично извличайте транзакционни таблици от изображения в Excel или бази данни.
Изследвания и анализи
Цифровизирайте таблиците от скенираните публикации или анкетни формуляри за анализ на данни.
Автоматизирана миграция на данни
Мигрирайте наследствени документи или скенираните хартиени записи в съвременни структурирани формати.
Съвместни предизвикателства и решения
Предизвикателство 1: Блури или сложни таблични изображения
Решение: Използвайте по-ясни изображения или експеримент с предварителна обработка, за да подобрите разпознаването на структурата.
Предизвикателство 2: Нестандартни таблични оформления
Решение: Тест и настройка на настройките за сложни оформления или безгранични таблици.
Предизвикателство 3: Големи батерии или смесени видове изображения
Решение: Използвайте обработка на комплекти и сканиране на директории, за да автоматизирате екстракцията от много файлове.
Преглед на изпълнението
- Използвайте добре осветени, високи изображения
- Батч процес за ефективност
- Използване на OCR предмети след употреба
Най-добрите практики
- Винаги валидирайте изнесените таблични данни преди по-нататъшна обработка
- Препроцесиране на изображения за оптимално откриване на структура
- Сигурни и резервни оригинални скани/изображения
- Използвайте правилния формат за износ за вашия работен поток (CSV, XLSX, JSON)
Разширени сценарии
Сценарий 1: Извличане на смесена езикова маса
settings.Language = Language.Chinese;
Сценарий 2: Съчетаване на таблица и извличане на текст
settings.DetectAreasMode = DetectAreasMode.COMBINE;
заключение
ASPOSE.OCR Table to Text за .NET преобразува таблици с изображения в структурирани, редактируеми данни – не се изисква ръчен вход. ускоряване на финансовите отчети, анализа и цифровото архивиране с точна, автоматизирана таблична екстракция.
За повече подробности и технически данни посетете Aspose.OCR за .NET API Референт .