.NET에서 스캔한 PDF를 검색 가능한 텍스트 문서로 변환하는 방법

Scanned PDFs는 일반적으로 편집할 수 없는 이미지 기반 파일로, 그로 인해 텍스트를 추출하기가 어렵습니다. 그러나 Aspose.OCR for .NET을 사용하면 이러한 스캔한 PDF를 편집 가능하고 검색 가능한 텍스트 문서로 빠르게 변환하여 데이터 검색 및 문서 관리가 훨씬 쉬워집니다.

스캔한 PDF를 검색 가능한 텍스트로 변환해야 하는 이유

접근성 향상:
- 스캔한 PDF는 검색 가능하고 편집 가능한 텍스트로 변환할 수 있어 콘텐츠에 대한 접근성이 향상됩니다.
데이터 조직:
- 변환된 텍스트는 다양한 형식(Word, Excel 또는 일반 텍스트)으로 조직, 조작 및 재사용할 수 있습니다.
콘텐츠 보존:
- Aspose.OCR은 텍스트가 추출되는 동안 원본 이미지와 레이아웃이 보존되도록 하여 콘텐츠와 맥락을 모두 제공합니다.

전제 조건: 스캔한 PDF 변환 준비

스캔한 PDF에서 텍스트를 추출하는 과정을 시작하기 전에 다음 사항을 확인하세요:

Aspose.OCR for .NET 설치:
- NuGet을 사용하여 필요한 라이브러리를 설치합니다:
  dotnet add package Aspose.OCR
라이센스 구성:
- 모든 기능을 잠금 해제하기 위해 SetMeteredKey() 메서드를 사용하여 미터 라이센스를 얻고 구성합니다.
스캔한 PDF 준비:
- 최상의 OCR 결과를 위해 스캔한 PDF의 품질이 좋고 (300 DPI 이상) 확인합니다.

스캔한 PDF를 텍스트로 변환하는 단계별 가이드

단계 1: 라이센스 구성

전체 기능에 대한 액세스를 보장하기 위해 Aspose.OCR 라이센스를 구성합니다.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("미터 라이센스가 성공적으로 구성되었습니다.");

단계 2: 스캔한 PDF를 OCR 입력 객체에 로드

스캔한 PDF 파일을 OCR 엔진에 로드하여 텍스트 인식을 수행합니다.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // 처리할 페이지 지정 (첫 3 페이지)
Console.WriteLine("스캔한 PDF가 성공적으로 로드되었습니다.");

단계 3: 인식을 위한 OCR 엔진 구성

스캔한 PDF에서 텍스트 추출을 최적화하기 위해 OCR 엔진을 설정합니다.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // OCR 언어 지정 (영어의 경우 라틴 사용)
Console.WriteLine("OCR 설정이 구성되었습니다.");

단계 4: 인식된 텍스트 추출 및 저장

스캔한 PDF를 처리하여 텍스트를 추출하고 파일에 출력합니다.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("텍스트 추출이 성공적으로 완료되었습니다.");

// 인식된 텍스트를 파일에 출력
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("인식된 텍스트가 recognized_text.txt에 저장되었습니다.");

단계 5: 인식된 텍스트 테스트

추출 후 출력 파일을 확인하거나 콘솔에 표시하여 텍스트 인식의 정확성을 검증합니다.

일반적인 문제 및 해결 방법

1. 낮은 OCR 정확도

해결 방법: 스캔한 PDF의 품질이 높고 (300 DPI 이상) 확인하여 인식 정확도를 향상시킵니다.

2. 잘못된 언어 인식

해결 방법: RecognitionSettings에서 언어 설정을 명시적으로 지정하여 비라틴 문자의 경우에도 더 나은 결과를 얻습니다.

3. 대용량 파일의 느린 성능

해결 방법: 대용량 PDF를 청크로 처리하거나 메모리 사용을 최적화하여 OCR 프로세스를 가속화합니다.