ASPOSE.OCR을 사용하여 이미지에서 테이블 및 표 데이터를 추출하는 방법
이미지, 양식 또는 스캔 된 보고서에서 테이블을 추출하는 것은 도전적입니다 - 수동 리티핑은 느리고 오류가 발생합니다. Aspose.OCR Table to Text for .NET 자동화 된 이미지와 사진에서 텍스트 데이터 제거 및 구조.
현실 세계 문제
재무 보고서, 설문 조사 양식 및 과학적 결과는 종종 스캔 된 테이블이나 이미지에 갇혀 있습니다.이 데이터를 수동으로 재생하면 오류가 발생할 수있는 시간과 위험을 낭비합니다.
솔루션 검토
Aspose.OCR for .NET은 정확하게 탐지, 추출 및 이미지 또는 스캔 된 PDF에서 테이블을 기계 읽을 수있는 형식으로 변환 할 수 있습니다 - Excel, 보고, 또는 작업 흐름 자동화에 완벽합니다.
원칙
- Visual Studio 2019 또는 이후
- .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
- NuGet에서 .NET을 위한 ASPOSE.OCR
- 기본 C# 지식
PM> Install-Package Aspose.OCR
단계별 실행
단계 1 : ASPOSE.OCR 설치 및 설정
using Aspose.OCR;
단계 2: 테이블을 포함하는 스캔 또는 사진 이미지
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
단계 3: 테이블 인식 설정을 설정
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
단계 4: 테이블 추출 프로세스를 실행
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
단계 5 : 수출 테이블 데이터
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
단계 6 : 오류 처리 및 인증을 추가
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
단계 7 : 복잡한, 회전 또는 멀티 페이지 테이블을 최적화
- Preprocess 이미지 to deskew 또는 crop
- 고해상도 스캔 또는 사진 사용
- 여러 페이지의 PDF를 위해 각 페이지를 별도의 입력으로 추가하십시오.
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
단계 8 : 완전한 예제
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
사례 및 응용 프로그램 사용
금융 및 과학 보고서
Excel에서 즉각적인 분석을 위해 재무 보고서, 실험실 결과 또는 연구 논문에서 테이블을 추출합니다.
설문 조사 및 형식 처리
스캔 된 양식, 체크리스트 또는 검열 기록에서 테이블을 디지털화합니다.
작업 흐름 자동화
구조화된 테이블 데이터를 직접 비즈니스 응용 프로그램, BI 도구 또는 데이터베이스로 전송합니다.
일반적인 도전과 해결책
도전 1 : 낮은 품질 또는 복잡한 테이블
** 솔루션:** 높은 크기의 이미지를 사용하고 샘플 세트를 테스트합니다.
도전 2 : 회전 또는 찢어진 테이블
** 솔루션:** 처리하기 전에 이미지를 삭제; DetectAreasMode.TABLE를 사용합니다.
도전 3 : 멀티 페이지 보고서
** 솔루션:** 각 페이지를 배치 처리에 대한 별도의 입력으로 추가합니다.
성과 고려 사항
- 속도를 위한 배치 프로세스
- 높은 품질의 스캔/사진 사용
- 대규모 레이스 후 OCR 물건의 사용
모범 사례
- 통합 전에 출력 확인
- Tune 테이블 인식 설정 필요한 경우
- 원본 및 디지털 데이터 백업
- 배치하기 전에 실제 샘플 테스트
고급 시나리오
시나리오 1 : 다국어 테이블 추출
settings.Language = Language.German;
시나리오 2 : 데이터 파이프를 위해 JSON에 수출
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
결론
ASPOSE.OCR 테이블에서 텍스트로 .NET은 이미지와 스캔을 실행 가능하고 구조화된 표 데이터로 변환합니다 - 분석, 보고 및 자동화를 위해 준비되어 있습니다.
더 많은 테이블 인식 코드 샘플 보기 .NET API 참조를 위한 ASPOSE.OCR .