Како извући табеле и табуларне податке из слика са Aspose.OCR
Истраживање табела из слика, обрасца или скенираних извештаја је изазовно – ручно ретипирање је споро и без грешака.Аппозе.ОЦР Табеле за текст за .НЕТ аутоматизује екстракцију и структурирање табларних података из слике и фотографија.
Реал светски проблем
Финансијске изјаве, обрасци истраживања и научни резултати су често заробљени у скенираним табелима или сликама. ручно рекреирање ових података губи сат времена и ризикује да уведе грешке.
Преглед решења
Aspose.OCR za .NET može precizno detektirati, izvaditi i pretvoriti tabele iz slika ili skeniranih PDF-a u strojno čitljive formate – savršene za Excel, izveštaj ili automatizaciju tokova rada.
Принципи
- Visual Studio 2019 или касније
- .NET 6.0 или новији (или .Net Framework 4.6.2+)
- Aspose.OCR za .NET od NuGet
- Основни знања Ц #
PM> Install-Package Aspose.OCR
Корак по корак спровођење
Корак 1: Инсталирајте и конфигуришете Aspose.OCR
using Aspose.OCR;
Корак 2: Скенирање или фотографисање слика са табелама
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Корак 3: Конфигуришите подешавања распознавања табеле
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Корак 4: Покрените процес екстракције стола
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Корак 5: Експорт табела података
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Корак 6: Додајте обраду грешака и валидацију
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Корак 7: Оптимизација за сложене, ротиране или мулти-странице табеле
- Препроцесује слике за дескеу или узгој
- Користите скене високе резолуције или фотографије
- За вишестранице ПДФ-а, додајте сваку страницу као одвојени унос
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Корак 8: Потпуни пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Коришћење случајева и апликација
Финансијски и научни извештај
Истражите табеле из финансијских извештаја, резултата лабораторије или истраживачких докумената за инстантну анализу у Екцелу.
Истраживање и обрада облика
Дигитализација табела из скенираних обрасца, контролних листа или цензура.
Automatizacija tokova rada
Подајте структуриране табелне податке директно у пословне апликације, БИ алате или базе података.
Заједнички изазови и решења
Проблем 1: лоша квалитет или сложене табеле
Решење: Користите слике са високим резоном и тестирајте узорке. Препроцес за побољшање јасноће.
Проблем 2: Ротирајуће или прекинуте табеле
Решење: Дескевирајте слике пре обраде; користите DetectAreasMode.TABLE.
Проблем 3: Мулти-странице извештаја
Решење: Додајте сваку страницу као одвојени улаз за обраду бацх-а.
Размишљање о перформанси
- Батцх процес за брзину
- Користите висококвалитетне скене / фотографије
- На располагању ОЦР објеката након великих трка
Најбоља пракса
- Проверите производњу пре интеграције
- Подешавање распореда за препознавање табела као што је потребно
- Оригинални и дигитални подаци
- Тест са стварним узорцима пре постављања
Напредни сценарио
Сценарио 1: Мулти-језична табела екстракција
settings.Language = Language.German;
Сценарио 2: Експорт у ЈСОН за цеви података
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Закључак
ASPOSE.OCR Tabela za tekst za .NET pretvara slike i skeniranje u aktivne, strukturirane podatke tabele – spremne za analizu, izveštaj i automatizaciju.
Види више табела препознавање код узорка у Aspose.OCR за .NET API референце .