Aspose.OCR을 사용하여 이미지에서 테이블 데이터를 추출하는 방법
스캔 또는 촬영 된 이미지에서 테이블을 추출하는 것은 종종 수동, 오류를 방지하는 과정입니다. .NET을 위한 Aspose.OCR Table to Text를 사용하면, 시간을 절약하고, 실수를 줄이고, 데이터베이스, Excel 또는 보고 도구와의 무제한 통합을 가능하게 할 수 있습니다.
현실 세계 문제
비즈니스는 종종 수수료, 보고서 또는 이미지 또는 스캔과 같은 양식으로 테이블을 받습니다.이 데이터를 스파이더 또는 분석 플랫폼에 수동으로 다시 삽입하는 것은 효율적이지 않으며 오류가 발생합니다.
솔루션 검토
ASPOSE.OCR Table to Text for .NET 자동화 테이블 인식 및 이미지에서 데이터 추출, 정확하게 세포 구조 및 콘텐츠를 식별.이 스캔 또는 촬영 된 표를 최소 코드를 가진 구조화, 검색 가능 및 편집 가능한 형식으로 변환 할 수 있습니다.
원칙
시작하기 전에, 당신은 필요합니다 :
- Visual Studio 2019 또는 이후
- .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
- NuGet에서 .NET을 위한 ASPOSE.OCR
- 기본 C# 지식
PM> Install-Package Aspose.OCR
단계별 실행
단계 1 : ASPOSE.OCR 설치 및 설정
Aspose.OCR 패키지를 추가하고 필요한 이름 공간을 포함합니다 :
using Aspose.OCR;
단계 2: 테이블 이미지 입력 준비
입력에 하나 이상의 테이블 이미지를 추가합니다. 배치 추출을 위해 여러 파일을 사용하십시오.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
단계 3: 테이블 인식 설정을 설정
테이블 탐지 모드를 허용하여 구조가 정확하게 인식되도록 합니다.
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
단계 4: 테이블 인식 프로세스를 실행
설정된 설정으로 테이블을 인식하십시오 :
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
단계 5 : 테이블 데이터 수출 및 사용
인식된 테이블 데이터를 저장하거나 처리합니다.텍스트, Excel, JSON 또는 다른 형식으로 수출할 수 있습니다.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
단계 6 : 오류 처리 추가
강력한 솔루션을 구축하기 위해 예외 처리를 추가합니다.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
단계 7 : 복잡한 테이블을 최적화
- 고해상도 스캔/사진을 사용하여 정확한 구조 탐지
- 다양한 테이블 레이아웃을 사용하여 테스트 (혼합 세포, 멀티 라인 헤드셋, 경계)
- 필요에 따라 톤 인식 설정
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
단계 8 : 완전한 작업 예제
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
사례 및 응용 프로그램 사용
재무 보고서 및 청구서
이미지에서 거래 테이블을 Excel 또는 데이터베이스 시스템으로 자동으로 추출합니다.
연구 및 분석
데이터 분석을 위해 스캔 된 출판물 또는 설문 조사 양식에서 테이블을 디지털화합니다.
자동 데이터 이주
유산 문서 또는 스캔 된 종이 기록을 현대 구조 형식으로 이주합니다.
일반적인 도전과 해결책
도전 1 : 블러리 또는 복잡한 테이블 이미지
** 솔루션:** 구조 인식을 향상시키기 위해 더 명확한 이미지 또는 사전 처리 실험을 사용합니다.
도전 2 : 비 표준 테이블 레이아웃
솔루션: 복잡한 레이아웃 또는 무제한 테이블에 대한 설정을 테스트하고 조정합니다.
도전 3 : 큰 배치 또는 혼합 이미지 유형
솔루션: 배치 처리 및 디렉토리 스캔을 사용하여 여러 파일에서 추출을 자동화합니다.
성과 고려 사항
- 잘 빛나는, 높은 리즈 이미지 사용
- 효율성을 위한 배치 프로세스
- 사용 후 OCR 물건을 제공합니다.
모범 사례
- 계속 처리하기 전에 항상 수출 된 테이블 데이터를 확인하십시오.
- 최적의 구조 탐지를 위한 사전 처리 이미지
- 보안 및 백업 원본 스캔/사진
- 작업 흐름에 적합한 수출 형식을 사용하십시오 (CSV, XLSX, JSON)
고급 시나리오
시나리오 1 : 혼합 언어 테이블 추출
settings.Language = Language.Chinese;
시나리오 2 : 테이블과 텍스트 추출을 결합
settings.DetectAreasMode = DetectAreasMode.COMBINE;
결론
Aspose.OCR Table to Text for .NET은 이미지 테이블을 구조화되고 편집 가능한 데이터로 변환합니다 - 수동 입력이 필요하지 않습니다.
더 많은 예와 기술적 세부 사항을 위해, 방문 .NET API 참조를 위한 ASPOSE.OCR .