ASPOSE.OCR을 사용하여 이미지에서 테이블 및 표 데이터를 추출하는 방법

ASPOSE.OCR을 사용하여 이미지에서 테이블 및 표 데이터를 추출하는 방법

이미지, 양식 또는 스캔 된 보고서에서 테이블을 추출하는 것은 도전적입니다 - 수동 리티핑은 느리고 오류가 발생합니다. Aspose.OCR Table to Text for .NET 자동화 된 이미지와 사진에서 텍스트 데이터 제거 및 구조.

현실 세계 문제

재무 보고서, 설문 조사 양식 및 과학적 결과는 종종 스캔 된 테이블이나 이미지에 갇혀 있습니다.이 데이터를 수동으로 재생하면 오류가 발생할 수있는 시간과 위험을 낭비합니다.

솔루션 검토

Aspose.OCR for .NET은 정확하게 탐지, 추출 및 이미지 또는 스캔 된 PDF에서 테이블을 기계 읽을 수있는 형식으로 변환 할 수 있습니다 - Excel, 보고, 또는 작업 흐름 자동화에 완벽합니다.

원칙

  • Visual Studio 2019 또는 이후
  • .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
  • NuGet에서 .NET을 위한 ASPOSE.OCR
  • 기본 C# 지식
PM> Install-Package Aspose.OCR

단계별 실행

단계 1 : ASPOSE.OCR 설치 및 설정

using Aspose.OCR;

단계 2: 테이블을 포함하는 스캔 또는 사진 이미지

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

단계 3: 테이블 인식 설정을 설정

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

단계 4: 테이블 추출 프로세스를 실행

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

단계 5 : 수출 테이블 데이터

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

단계 6 : 오류 처리 및 인증을 추가

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

단계 7 : 복잡한, 회전 또는 멀티 페이지 테이블을 최적화

  • Preprocess 이미지 to deskew 또는 crop
  • 고해상도 스캔 또는 사진 사용
  • 여러 페이지의 PDF를 위해 각 페이지를 별도의 입력으로 추가하십시오.
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

단계 8 : 완전한 예제

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

사례 및 응용 프로그램 사용

금융 및 과학 보고서

Excel에서 즉각적인 분석을 위해 재무 보고서, 실험실 결과 또는 연구 논문에서 테이블을 추출합니다.

설문 조사 및 형식 처리

스캔 된 양식, 체크리스트 또는 검열 기록에서 테이블을 디지털화합니다.

작업 흐름 자동화

구조화된 테이블 데이터를 직접 비즈니스 응용 프로그램, BI 도구 또는 데이터베이스로 전송합니다.

일반적인 도전과 해결책

도전 1 : 낮은 품질 또는 복잡한 테이블

** 솔루션:** 높은 크기의 이미지를 사용하고 샘플 세트를 테스트합니다.

도전 2 : 회전 또는 찢어진 테이블

** 솔루션:** 처리하기 전에 이미지를 삭제; DetectAreasMode.TABLE를 사용합니다.

도전 3 : 멀티 페이지 보고서

** 솔루션:** 각 페이지를 배치 처리에 대한 별도의 입력으로 추가합니다.

성과 고려 사항

  • 속도를 위한 배치 프로세스
  • 높은 품질의 스캔/사진 사용
  • 대규모 레이스 후 OCR 물건의 사용

모범 사례

  • 통합 전에 출력 확인
  • Tune 테이블 인식 설정 필요한 경우
  • 원본 및 디지털 데이터 백업
  • 배치하기 전에 실제 샘플 테스트

고급 시나리오

시나리오 1 : 다국어 테이블 추출

settings.Language = Language.German;

시나리오 2 : 데이터 파이프를 위해 JSON에 수출

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

결론

ASPOSE.OCR 테이블에서 텍스트로 .NET은 이미지와 스캔을 실행 가능하고 구조화된 표 데이터로 변환합니다 - 분석, 보고 및 자동화를 위해 준비되어 있습니다.

더 많은 테이블 인식 코드 샘플 보기 .NET API 참조를 위한 ASPOSE.OCR .

 한국어