.NET에서 스캔한 PDF를 검색 가능한 텍스트 문서로 변환하는 방법

Scanned PDFs는 본질적으로 텍스트의 이미지이기 때문에 작업하기가 종종 어렵습니다. 이러한 이미지를 검색 가능하고 편집 가능한 텍스트 문서로 변환하면 문서 관리 및 콘텐츠 접근성에 대한 가능성이 열립니다. Aspose.OCR for .NET을 사용하면 원본 이미지를 유지하면서 스캔한 PDF를 완전히 검색 가능한 문서로 변환할 수 있습니다.

스캔된 PDF를 검색 가능한 텍스트 문서로 변환하는 이유는?

접근성:
- 스캔된 콘텐츠를 검색 가능하게 만들어 문서를 수동으로 읽지 않고도 정보를 쉽게 찾을 수 있습니다.
콘텐츠 편집:
- 텍스트로 변환된 후에는 콘텐츠를 편집, 업데이트 또는 다른 형식으로 재사용할 수 있습니다.
효율성:
- 스캔된 PDF를 완전히 접근 가능한 텍스트 문서로 변환하는 프로세스를 자동화하여 시간을 절약할 수 있습니다.

필수 조건: 스캔된 PDF 텍스트 추출 설정

스캔된 PDF에서 텍스트를 추출하기 전에 모든 것이 설정되었는지 확인하려면 다음 단계를 따르십시오:

Aspose.OCR for .NET 설치:
- NuGet을 사용하여 프로젝트에 Aspose.OCR 추가:
  dotnet add package Aspose.OCR
라이선스 취득:
- SetMeteredKey()를 사용하여 미터 라이선스를 설정하여 Aspose.OCR의 전체 기능을 잠금 해제합니다.
스캔된 PDF 준비:
- 인식 정확도를 높이기 위해 스캔된 PDF의 품질이 좋은지 확인합니다.

단계별 가이드: 스캔된 PDF를 검색 가능한 텍스트로 변환하기

단계 1: 라이선스 설정

모든 기능을 잠금 해제하기 위해 Aspose.OCR 라이선스를 구성하는 것으로 시작합니다.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("라이선스가 성공적으로 구성되었습니다.");

단계 2: 스캔된 PDF를 OCR 입력 객체에 로드

다음으로, OCR 프로세스를 시작하기 위해 스캔된 PDF를 OcrInput 객체에 로드합니다.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // 첫 3페이지 처리
Console.WriteLine("스캔된 PDF가 성공적으로 로드되었습니다.");

단계 3: 인식을 위한 OCR 엔진 구성

OCR 엔진을 설정하고 언어 및 정확도와 같은 인식 설정을 구성합니다.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // OCR 언어 설정
Console.WriteLine("OCR 엔진이 구성되었습니다.");

단계 4: 인식된 텍스트 추출 및 출력

이제 OCR 엔진을 사용하여 스캔된 PDF에서 텍스트를 추출합니다.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("스캔된 PDF에서 텍스트가 성공적으로 추출되었습니다.");

// 인식된 텍스트 출력
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// 결과를 텍스트 파일로 저장
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("텍스트가 recognized_text.txt에 저장되었습니다.");

단계 5: 검색 가능한 PDF 테스트

추출된 텍스트가 검색 가능하고 편집 가능한지 확인하기 위해 PDF 뷰어 또는 편집기에서 출력을 테스트합니다.

일반적인 문제 및 해결 방법

1. 낮은 OCR 정확도

해결 방법: 인식 결과를 개선하기 위해 스캔된 PDF의 품질이 높아야 합니다(최소 300 DPI).

2. 지원되지 않는 글꼴

해결 방법: 비라틴 문자의 정확한 텍스트 인식을 위해 OCR 설정에서 올바른 언어가 설정되었는지 확인합니다.

3. 대형 PDF의 느린 성능

해결 방법: 대형 PDF의 경우 메모리 사용량을 줄이고 프로세스를 가속화하기 위해 문서를 더 작은 청크 또는 페이지로 처리합니다.