Како извући структуриране податке из табела и облика у сликама
Екстракција података из скенираних табела или испуњених обрасца је од суштинског значаја за пословну аутоматизацију, извештавање и усклађеност.Аппосе.ОЦР Табеле за текст за .НЕТ убрзава овај процес, тачно открива ћелијску и пољску структуру и извози у уређујуће формати.
Реал светски проблем
Бизниси често добијају рачуне, извештаје или обрасци као слике или скене. ручно уношење табеларних података или поља облика је споро, погрешно и скупо на скали.
Преглед решења
Са Табелом до тексту за .NET, можете извући структуриране податке – укључујући редове, колоне и вредности поља – директно из слика.
Принципи
- Visual Studio 2019 или касније
- .NET 6.0 или новији (или .Net Framework 4.6.2+)
- Aspose.OCR za .NET od NuGet
- Основне вештине Ц #
PM> Install-Package Aspose.OCR
Корак по корак спровођење
Корак 1: Инсталирајте и конфигуришете Aspose.OCR
using Aspose.OCR;
Корак 2: Припремите табеле или облике слике
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Корак 3: Подесите подешавања препознавања за табеле / обрасци
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Корак 4: Екстрактирајте табеле или податке о облику
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Корак 5: Извоз структурираног извоза
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Корак 6: Управљање грешкама и валидисање резултата
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Корак 7: Оптимизација за варијанте табеле / облика
- Тест на узорцима са различитим границама, шрифтовима или пољским положајима
- Тун препроцесирање подешавања за најбољу детекцију
Корак 8: Аутоматска екстракција бацх
Обрада свих релевантних слика у фасциклу:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Корак 9: Потпуни пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Коришћење случајева и апликација
Аутоматизација рачуна и извештаја
Истраживање финансијских података за рачуноводство или аналитику.
Истраживање и регистрација обрасца
Pull strukturirane odgovore za CRM, ERP ili BI sisteme.
Усклађеност и ревизија
Аутоматско извлачење и валидација података из поднетих обрасца или табела.
Заједнички изазови и решења
Проблем 1: Нерегуларне табелне границе или распореде
Решење: Користите препроцесирање и тунирање узорка како бисте побољшали откривање.
Проблем 2: Мешани садржај (текст и табеле)
Решење: Ради са ауто или одвојено по типу слике за најбоље резултате.
Проблем 3: Комплексне облике са многим пољима
Решење: Тест и твик препознавање за облике високе густине.
Размишљање о перформанси
- Табела препознавање је више ЦПУ-интензивни; мониторинг бацх рад
- Validacija ishodova za kritične tokove rada
- Батцх извоз за интеграцију са другим алатима
Најбоља пракса
- Валидирајте структуриране податке на узорцима пре скалирања
- Безбедно и архивирајте и изворне слике и извучене излазе
- Редовно ажурирајте Aspose.OCR за побољшање прецизности
- Тун подешавања за нове распореде документа
Напредни сценарио
Сценарио 1: Експорт у базу података или БИ алате
// Use JSON or Excel export for integration with data pipelines
Сценарио 2: Екстракција у реалном времену у веб апликацијама
// Integrate extraction logic into ASP.NET or workflow API
Закључак
Aspose.OCR Table to Text for .NET omogućava automatizaciju strukturiranog izvlačenja podataka iz slika i obrazaca, podržavajući sve od poslovne automatizacije do usklađenosti i analize.
За напредне функције екстракције стола, посетите Aspose.OCR за .NET API референце .