Aspose.OCR을 사용하여 스캔 된 이미지에서 텍스트를 추출하는 방법

Aspose.OCR을 사용하여 스캔 된 이미지에서 텍스트를 추출하는 방법

계약, 협정, 책 페이지 또는 오래된 기록을 스캔하는 것은 일반적으로 이미지 파일을 생성합니다 - 편집할 수 없는 텍스트. Aspose.OCR Scan to Text for .NET은 스캐닝 된 문서 또는 사진에서 구조화 된, 검색 가능한 문서를 추출하는 것을 자동화하여 수많은 시간의 수동 입력을 절약 할 수 있습니다.

현실 세계 문제

종이 문서, 책 및 아카이브는 종종 이미지로 저장됩니다. 디지털 작업 흐름, 준수 또는 연구를 위해 그들의 콘텐츠를 추출하면 천천히, 비싸고, 수동으로 수행하면 오류가 발생할 수 있습니다.

솔루션 검토

ASPOSE.OCR Scan to Text for .NET은 인쇄 된 페이지의 이미지를 사용 가능한 텍스트로 변환하고, 단일 열, 다중 열 및 복잡한 배열을 처리합니다.이 작업 흐름은 현대적인 사용을위한 계약, 책, 기록 및 비즈니스 문서를 디지털화하는 데 이상적입니다.

원칙

당신이 가지고 있는지 확인하십시오 :

  • Visual Studio 2019 또는 이후
  • .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
  • NuGet에서 .NET을 위한 ASPOSE.OCR
  • 기본 C# 지식
PM> Install-Package Aspose.OCR

단계별 실행

단계 1 : ASPOSE.OCR 설치 및 설정

NuGet 패키지와 Aspose.OCR 참조를 추가하십시오 :

using Aspose.OCR;

단계 2 : 스캔 된 이미지를 추가하십시오

처리하려는 단일 또는 여러 이미지 파일을 업로드합니다.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

단계 3: 인식 설정을 설정

필요한 경우 문서 언어 및 레이아웃을 튜닝합니다.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

단계 4 : 인식 프로세스를 실행

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

단계 5 : 추출 된 텍스트를 저장하거나 처리합니다.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

단계 6 : 오류 처리 추가

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

단계 7 : 문서 레이아웃을 최적화

  • 책이나 기사를 위해, DetectAreasMode.DOCUMENT을 사용 하 여 또는 시도 해 보세요.
  • 최상의 정확성을 위해 사전 처리 이미지 (곡물, 묘목)
  • 큰 아카이브를 위한 배치 프로세스
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

단계 8 : 완전한 예제

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

사례 및 응용 프로그램 사용

계약 및 계약 디지털화

신속하게 검색, 아카이브 및 디지털 작업 흐름을위한 법률 또는 비즈니스 문서를 인쇄합니다.

책 및 아카이브 처리

책 페이지 또는 역사 기록을 검색 가능하고 편집 가능한 형식으로 변환합니다.

준수 및 데이터 추출

자동 준수 검사, 감사 또는 유산 문서에서 텍스트 추출을 가능하게 합니다.

일반적인 도전과 해결책

도전 1 : 낮은 품질의 스캔 또는 망가진 텍스트

** 솔루션:** 더 나은 OCR 정확성을 위해 사전 처리 또는 이미지를 향상시킵니다.

도전 2 : 다중 열 또는 복잡한 레이아웃

** 솔루션:** DetectAreasMode를 조정하고 최상의 레이아웃 관리에 대한 테스트.

도전 3 : 배치 디지털화

** 솔루션:** 대규모 작업을 위해 배치 처리 및 자원 관리를 사용합니다.

성과 고려 사항

  • 속도와 규모를 위한 배치 프로세스
  • 좋은 품질의 출처 이미지 사용
  • 사용 후 OCR 물건을 제공합니다.

모범 사례

  • 자동화 또는 아카이브하기 전에 항상 추출 된 텍스트를 확인하십시오.
  • 문서 유형에 대한 올바른 인식 설정 사용
  • 참조를 위한 원본 스캔 백업
  • OCR 테스트 결과는 생산 전에 샘플 배치에

고급 시나리오

시나리오 1 : 다국어 문서 추출

settings.Language = Language.French;

시나리오 2 : 통합을 위해 JSON에 수출

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

결론

ASPOSE.OCR Scan to Text for .NET은 스캔 된 이미지와 종이 문서를 사용 가능하고 편집 가능한 텍스트로 변환하는 가장 빠른 방법입니다 - 법률, 학업 또는 기업 프로젝트에 이상적입니다.

더 많은 예와 기술적 세부 사항을 참조하십시오. .NET API 참조를 위한 ASPOSE.OCR .

 한국어