Aspose.OCR을 사용하여 스캔 된 PDF에서 텍스트를 추출하는 방법
스캔 또는 이미지 기반 PDF 파일에서 텍스트를 추출하는 것은 복잡한 작업 흐름이나 비싼 수동 작업을 요구하는 데 사용됩니다. ASPOSE.OCR Scanned PDF to Text for .NET, 당신은이 과정을 자동화 할 수 있습니다, PDF를 검색 및 편집 가능한 문서로 변환 단지 몇 개의 코드 라인.
현실 세계 문제
조직은 종종 계약, 보고서 또는 파일을 스캔 된 PDF로 받습니다.이 문서 내에서 텍스트를 수동으로 복사하거나 검색하는 것은 지루하고 오류가 발생하며 준수, 아카이브 및 디지털 변환 프로젝트를 느리게합니다.
솔루션 검토
Aspose.OCR for .NET은 스캔된 PDF를 배치하여 텍스트 또는 검색 가능한 PDF로 변환하여 정보가 접근 가능하고 인덱스 가능하며 디지털 작업 흐름을 준비할 수 있습니다.
원칙
시작하기 전에, 당신이 가지고 있는지 확인:
- Visual Studio 2019 또는 이후
- .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
- NuGet에서 .NET을 위한 ASPOSE.OCR
- 기본 C# 지식
PM> Install-Package Aspose.OCR
단계별 실행
단계 1 : ASPOSE.OCR 설치 및 설정
NuGet 패키지와 Aspose.OCR 참조를 추가하십시오 :
using Aspose.OCR;
2단계 : 스캔된 PDF 파일을 추가합니다.
PDF 입력을 위한 OcrInput 개체를 만들고 스캔된 PDF 파일을 추가합니다.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
단계 3: 인식 설정을 설정
문서에 맞게 언어 및 기타 인식 설정을 설정합니다.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
단계 4 : 인식 프로세스를 실행
스캔 된 PDF에서 텍스트를 인식하십시오 :
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5단계: 인식된 텍스트를 저장하거나 수출하십시오.
인식 된 텍스트를 파일로 내보내거나 결과를 검색 가능한 PDF로 변환합니다.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
단계 6 : 오류 처리 추가
강도를 위해 시도/캡처 블록에 인식을 삽입합니다.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
단계 7 : 대형 또는 다중 페이지 PDF를 최적화합니다.
- 거대한 파일을 위한 페이지별 PDF 처리
- 최고의 결과를 위해 높은 품질의 스캔을 사용하십시오.
- 대형 컬렉션을 위한 배치 프로세스
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
단계 8 : 완전한 작업 예제
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
사례 및 응용 프로그램 사용
디지털 Archive
스캔 된 문서의 전체 라이브러리를 검색 가능하고 인덱스 할 수있는 파일로 변환하여 준수 및 지식 관리.
법률 및 계약 관리
검토, 자동화 또는 디지털 서명을 위해 PDF에서 계약 조항 또는 조건을 추출합니다.
Streamlined 문서 검색
파일, 지식 기반 또는 사례 파일에서 빠른 전체 텍스트 검색을 가능하게 합니다.
일반적인 도전과 해결책
도전 1 : 낮은 품질 또는 스케이드 스캔
** 솔루션:** 가능한 한 사전 처리 필터 및 고품질 스캔을 사용하십시오.
도전 2 : 다국어 PDF
** 솔루션:** 여러 언어 옵션을 사용하여 인식 설정 또는 프로세스에서 언론을 설정합니다.
도전 3 : 매우 큰 PDF 파일
** 솔루션:** 배치 또는 페이지별로 처리하고 메모리 사용을 모니터링합니다.
성과 고려 사항
- 스캔된 PDF를 위한 최적의 DPI (300+) 사용
- 최고의 통과를 위한 배치 프로세스
- OCR 개체 및 닫힌 파일 핸들
모범 사례
- 추가 자동화 전에 OCR 출력 확인
- 조직 및 원본 PDF 파일 백업
- 작업 흐름을 위해 올바른 SaveFormat를 사용하십시오.
- 새로운 PDF 기능을 위해 Aspose.OCR을 정기적으로 업데이트합니다.
고급 시나리오
시나리오 1 : PDF에서 특정 페이지만 추출
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
시나리오 2 : 여러 형식으로 수출
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
결론
Aspose.OCR for .NET은 스캔된 PDF를 실행 가능한 텍스트 및 검색 가능한 파일로 변환하여 수동 입력을 제거하고 전체 조직에 정보를 접근할 수 있게 해줍니다.
자세한 내용과 예를 보려면 다음을 참조하십시오. .NET API 참조를 위한 ASPOSE.OCR .