.NET에서 스캔한 PDF를 검색 가능한 텍스트 문서로 변환하는 방법

.NET에서 스캔한 PDF를 검색 가능한 텍스트 문서로 변환하는 방법

Scanned PDFs는 본질적으로 텍스트의 이미지이기 때문에 작업하기가 종종 어렵습니다. 이러한 이미지를 검색 가능하고 편집 가능한 텍스트 문서로 변환하면 문서 관리 및 콘텐츠 접근성에 대한 가능성이 열립니다. Aspose.OCR for .NET을 사용하면 원본 이미지를 유지하면서 스캔한 PDF를 완전히 검색 가능한 문서로 변환할 수 있습니다.

스캔된 PDF를 검색 가능한 텍스트 문서로 변환하는 이유는?

  1. 접근성:
    • 스캔된 콘텐츠를 검색 가능하게 만들어 문서를 수동으로 읽지 않고도 정보를 쉽게 찾을 수 있습니다.
  2. 콘텐츠 편집:
    • 텍스트로 변환된 후에는 콘텐츠를 편집, 업데이트 또는 다른 형식으로 재사용할 수 있습니다.
  3. 효율성:
    • 스캔된 PDF를 완전히 접근 가능한 텍스트 문서로 변환하는 프로세스를 자동화하여 시간을 절약할 수 있습니다.

필수 조건: 스캔된 PDF 텍스트 추출 설정

스캔된 PDF에서 텍스트를 추출하기 전에 모든 것이 설정되었는지 확인하려면 다음 단계를 따르십시오:

  1. Aspose.OCR for .NET 설치:
    • NuGet을 사용하여 프로젝트에 Aspose.OCR 추가:
      dotnet add package Aspose.OCR
  2. 라이선스 취득:
    • SetMeteredKey()를 사용하여 미터 라이선스를 설정하여 Aspose.OCR의 전체 기능을 잠금 해제합니다.
  3. 스캔된 PDF 준비:
    • 인식 정확도를 높이기 위해 스캔된 PDF의 품질이 좋은지 확인합니다.

단계별 가이드: 스캔된 PDF를 검색 가능한 텍스트로 변환하기

단계 1: 라이선스 설정

모든 기능을 잠금 해제하기 위해 Aspose.OCR 라이선스를 구성하는 것으로 시작합니다.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("라이선스가 성공적으로 구성되었습니다.");

단계 2: 스캔된 PDF를 OCR 입력 객체에 로드

다음으로, OCR 프로세스를 시작하기 위해 스캔된 PDF를 OcrInput 객체에 로드합니다.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // 첫 3페이지 처리
Console.WriteLine("스캔된 PDF가 성공적으로 로드되었습니다.");

단계 3: 인식을 위한 OCR 엔진 구성

OCR 엔진을 설정하고 언어 및 정확도와 같은 인식 설정을 구성합니다.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // OCR 언어 설정
Console.WriteLine("OCR 엔진이 구성되었습니다.");

단계 4: 인식된 텍스트 추출 및 출력

이제 OCR 엔진을 사용하여 스캔된 PDF에서 텍스트를 추출합니다.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("스캔된 PDF에서 텍스트가 성공적으로 추출되었습니다.");

// 인식된 텍스트 출력
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// 결과를 텍스트 파일로 저장
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("텍스트가 recognized_text.txt에 저장되었습니다.");

단계 5: 검색 가능한 PDF 테스트

추출된 텍스트가 검색 가능하고 편집 가능한지 확인하기 위해 PDF 뷰어 또는 편집기에서 출력을 테스트합니다.

일반적인 문제 및 해결 방법

1. 낮은 OCR 정확도

  • 해결 방법: 인식 결과를 개선하기 위해 스캔된 PDF의 품질이 높아야 합니다(최소 300 DPI).

2. 지원되지 않는 글꼴

  • 해결 방법: 비라틴 문자의 정확한 텍스트 인식을 위해 OCR 설정에서 올바른 언어가 설정되었는지 확인합니다.

3. 대형 PDF의 느린 성능

  • 해결 방법: 대형 PDF의 경우 메모리 사용량을 줄이고 프로세스를 가속화하기 위해 문서를 더 작은 청크 또는 페이지로 처리합니다.
 한국어