Aspose.OCR을 사용하여 스캔 된 이미지에서 텍스트를 추출하는 방법
계약, 협정, 책 페이지 또는 오래된 기록을 스캔하는 것은 일반적으로 이미지 파일을 생성합니다 - 편집할 수 없는 텍스트. Aspose.OCR Scan to Text for .NET은 스캐닝 된 문서 또는 사진에서 구조화 된, 검색 가능한 문서를 추출하는 것을 자동화하여 수많은 시간의 수동 입력을 절약 할 수 있습니다.
현실 세계 문제
종이 문서, 책 및 아카이브는 종종 이미지로 저장됩니다. 디지털 작업 흐름, 준수 또는 연구를 위해 그들의 콘텐츠를 추출하면 천천히, 비싸고, 수동으로 수행하면 오류가 발생할 수 있습니다.
솔루션 검토
ASPOSE.OCR Scan to Text for .NET은 인쇄 된 페이지의 이미지를 사용 가능한 텍스트로 변환하고, 단일 열, 다중 열 및 복잡한 배열을 처리합니다.이 작업 흐름은 현대적인 사용을위한 계약, 책, 기록 및 비즈니스 문서를 디지털화하는 데 이상적입니다.
원칙
당신이 가지고 있는지 확인하십시오 :
- Visual Studio 2019 또는 이후
- .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
- NuGet에서 .NET을 위한 ASPOSE.OCR
- 기본 C# 지식
PM> Install-Package Aspose.OCR
단계별 실행
단계 1 : ASPOSE.OCR 설치 및 설정
NuGet 패키지와 Aspose.OCR 참조를 추가하십시오 :
using Aspose.OCR;
단계 2 : 스캔 된 이미지를 추가하십시오
처리하려는 단일 또는 여러 이미지 파일을 업로드합니다.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
단계 3: 인식 설정을 설정
필요한 경우 문서 언어 및 레이아웃을 튜닝합니다.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
단계 4 : 인식 프로세스를 실행
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
단계 5 : 추출 된 텍스트를 저장하거나 처리합니다.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
// Save to Word or PDF as needed
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
단계 6 : 오류 처리 추가
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Use results...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
단계 7 : 문서 레이아웃을 최적화
- 책이나 기사를 위해, DetectAreasMode.DOCUMENT을 사용 하 여 또는 시도 해 보세요.
- 최상의 정확성을 위해 사전 처리 이미지 (곡물, 묘목)
- 큰 아카이브를 위한 배치 프로세스
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
input.Add(file);
}
단계 8 : 완전한 예제
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
사례 및 응용 프로그램 사용
계약 및 계약 디지털화
신속하게 검색, 아카이브 및 디지털 작업 흐름을위한 법률 또는 비즈니스 문서를 인쇄합니다.
책 및 아카이브 처리
책 페이지 또는 역사 기록을 검색 가능하고 편집 가능한 형식으로 변환합니다.
준수 및 데이터 추출
자동 준수 검사, 감사 또는 유산 문서에서 텍스트 추출을 가능하게 합니다.
일반적인 도전과 해결책
도전 1 : 낮은 품질의 스캔 또는 망가진 텍스트
** 솔루션:** 더 나은 OCR 정확성을 위해 사전 처리 또는 이미지를 향상시킵니다.
도전 2 : 다중 열 또는 복잡한 레이아웃
** 솔루션:** DetectAreasMode를 조정하고 최상의 레이아웃 관리에 대한 테스트.
도전 3 : 배치 디지털화
** 솔루션:** 대규모 작업을 위해 배치 처리 및 자원 관리를 사용합니다.
성과 고려 사항
- 속도와 규모를 위한 배치 프로세스
- 좋은 품질의 출처 이미지 사용
- 사용 후 OCR 물건을 제공합니다.
모범 사례
- 자동화 또는 아카이브하기 전에 항상 추출 된 텍스트를 확인하십시오.
- 문서 유형에 대한 올바른 인식 설정 사용
- 참조를 위한 원본 스캔 백업
- OCR 테스트 결과는 생산 전에 샘플 배치에
고급 시나리오
시나리오 1 : 다국어 문서 추출
settings.Language = Language.French;
시나리오 2 : 통합을 위해 JSON에 수출
foreach (RecognitionResult result in results)
{
result.Save("scanned_text.json", SaveFormat.Json);
}
결론
ASPOSE.OCR Scan to Text for .NET은 스캔 된 이미지와 종이 문서를 사용 가능하고 편집 가능한 텍스트로 변환하는 가장 빠른 방법입니다 - 법률, 학업 또는 기업 프로젝트에 이상적입니다.
더 많은 예와 기술적 세부 사항을 참조하십시오. .NET API 참조를 위한 ASPOSE.OCR .