그림에서 테이블과 모양에서 구조화 된 데이터를 추출하는 방법
그림에서 테이블과 모양에서 구조화 된 데이터를 추출하는 방법
스캔된 테이블 또는 채워진 양식에서 데이터를 추출하는 것은 비즈니스 자동화, 보고 및 준수에 필수적입니다. .NET을 위한 ASPOSE.OCR Table to Text는 이 과정을 단순화하여 세포 및 필드 구조를 정확하게 탐지하고 편집 가능한 형식으로 수출합니다.
현실 세계 문제
비즈니스는 종종 사진이나 스캔으로 청구서, 보고서 또는 양식을 수신합니다.표 데이터나 양식 필드의 수동 입력은 느리고 오류가 발생하며 규모에 비싸다.
솔루션 검토
.NET의 테이블에서 텍스트를 사용하면 그림에서 직접 구조화된 데이터를 추출할 수 있습니다. 결과는 Excel, JSON 또는 데이터베이스 및 자동화 플랫폼과 통합됩니다.
원칙
- Visual Studio 2019 또는 이후
- .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
- NuGet에서 .NET을 위한 ASPOSE.OCR
- 기본 C# 기술
PM> Install-Package Aspose.OCR
단계별 실행
단계 1 : ASPOSE.OCR 설치 및 설정
using Aspose.OCR;
단계 2: 테이블 또는 형식 이미지를 준비
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
단계 3: 테이블 / 양식에 대한 인식 설정 설정
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
단계 4 : 테이블 또는 양식 데이터 추출
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5단계: 구조화된 수출
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
단계 6 : 실수를 처리하고 결과를 확인합니다.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
단계 7 : 테이블 / 형식 변형을 최적화
- 다른 경계, 글꼴 또는 필드 위치를 가진 샘플 테스트
- 최상의 탐지를 위한 사전 처리 설정
단계 8 : 자동 배치 추출
모든 관련 이미지를 하나의 폴더로 처리합니다 :
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
단계 9 : 완전한 예제
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
사례 및 응용 프로그램 사용
청구 및 보고서 자동화
회계 또는 분석을 위해 금융 데이터를 추출합니다.
설문 조사 및 등록 양식
CRM, ERP 또는 BI 시스템에 대한 구조화 된 응답을 펌프합니다.
준수 및 감사
제출된 양식 또는 테이블에서 데이터를 자동으로 추출하고 검증합니다.
일반적인 도전과 해결책
도전 1 : 불규칙한 테이블 경계 또는 레이아웃
** 솔루션:** 사전 처리 및 샘플 튜닝을 사용하여 감지 기능을 향상시킵니다.
도전 2 : 혼합 콘텐츠 (텍스트 및 테이블)
** 솔루션:** 최상의 결과를 위해 AUTO를 실행하거나 이미지 유형에 따라 분리합니다.
도전 3 : 많은 필드를 가진 복잡한 형태
** 솔루션:** 고밀도 형식에 대한 테스트 및 트위크 인식.
성과 고려 사항
- 테이블 인식은 CPU-intensive; 모니터 배치 작업
- 비판적 인 작업 흐름을위한 출력 검증
- 다른 도구와의 통합을 위한 배치 수출
모범 사례
- 스케일링 전에 샘플에 구조화된 데이터를 검증합니다.
- 보안 및 아카이브 양쪽 출처 이미지 및 추출 출력
- 정확도 개선을 위해 Aspose.OCR을 정기적으로 업데이트합니다.
- 새로운 문서 레이아웃을 위한 톤 설정
고급 시나리오
시나리오 1 : 데이터베이스 또는 BI 도구로 수출
// Use JSON or Excel export for integration with data pipelines
시나리오 2 : 웹 애플리케이션에서 실시간 추출
// Integrate extraction logic into ASP.NET or workflow API
결론
ASPOSE.OCR 테이블 텍스트 for .NET은 이미지와 양식에서 구조화 된 데이터 추출을 자동화하여 비즈니스 자동화를 통해 준수 및 분석에 이르기까지 모든 것을 지원할 수 있습니다.
고급 테이블 추출 기능을 위해, 방문 .NET API 참조를 위한 ASPOSE.OCR .