Aspose.OCR를 사용하여 .NET에서 스캔한 PDF에서 텍스트 추출하는 방법

Aspose.OCR를 사용하여 .NET에서 스캔한 PDF에서 텍스트 추출하는 방법

Scanned PDFs는 본질적으로 텍스트의 이미지이기 때문에 작업하기 어려운 경우가 많습니다. 이러한 이미지를 검색 가능하고 편집 가능한 텍스트 문서로 변환하면 문서 관리 및 콘텐츠 접근성의 가능성이 열립니다. Aspose.OCR for .NET을 사용하면 스캔한 PDF를 원본 이미지를 유지하면서 완전히 검색 가능한 문서로 변환할 수 있습니다.

스캔한 PDF에 대한 OCR(광학 문자 인식)의 중요성

  1. 데이터 추출:
    • OCR을 사용하면 스캔한 텍스트를 기계가 읽을 수 있는 데이터로 변환할 수 있으며, 이는 편집 및 색인화가 가능합니다.
  2. 검색 가능성:
    • 스캔한 PDF를 검색 가능한 문서로 변환함으로써 페이지를 수동으로 검색하지 않고도 관련 정보를 빠르게 찾을 수 있습니다.
  3. 생산성 향상:
    • 스캔한 문서를 Word 또는 Excel과 같은 편집 가능한 형식으로 자동 변환하여 시간을 절약하세요.

전제 조건: 스캔한 PDF 텍스트 추출 설정

스캔한 PDF에서 텍스트를 추출하기 시작하기 전에 다음 단계를 완료했는지 확인하십시오:

  1. Aspose.OCR for .NET 설치:
    • NuGet을 사용하여 프로젝트에 Aspose.OCR을 추가합니다:
      dotnet add package Aspose.OCR
  2. 미터 라이센스 획득:
    • SetMeteredKey()를 사용하여 Aspose.OCR 라이브러리의 모든 기능을 잠금 해제할 수 있도록 미터 라이센스를 설정합니다.
  3. 스캔한 PDF 준비:
    • 스캔한 PDF의 품질이 높아야 합니다. 품질이 높을수록 더 정확한 OCR 결과를 얻을 수 있습니다.

단계별 가이드: 스캔한 PDF에서 텍스트 추출하기

단계 1: 필요한 라이브러리 설치

프로젝트에 Aspose.OCR for .NET을 설치하는 것으로 시작합니다. NuGet에서 직접 할 수 있습니다.

dotnet add package Aspose.OCR

단계 2: 라이센스 키 설정

진행하기 전에 Aspose.OCR의 라이센스를 구성하여 모든 기능을 잠금 해제하세요.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("라이센스가 성공적으로 구성되었습니다.");

단계 3: 스캔한 PDF를 OCR 입력 객체에 로드

스캔한 PDF를 OcrInput 객체에 로드해야 합니다. Aspose.OCR은 PDF의 여러 페이지 스캔을 지원합니다.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // PDF의 첫 3페이지를 처리합니다.
Console.WriteLine("스캔한 PDF가 성공적으로 로드되었습니다.");

단계 4: OCR 엔진을 사용하여 스캔한 PDF 처리

PDF가 로드되면 인식하기 위해 Aspose OCR 엔진에 전달합니다.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // OCR 언어 설정 (예: 영어의 경우 Latin)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("PDF에서 텍스트가 추출되었습니다.");

단계 5: 인식된 텍스트 출력 또는 저장

OCR 엔진이 PDF를 처리한 후, 인식된 텍스트를 직접 출력하거나 파일로 저장할 수 있습니다.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"인식된 텍스트: {recognizedText}");

// 결과를 텍스트 파일로 저장
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("인식된 텍스트가 output.txt에 저장되었습니다.");

단계 6: OCR 결과 테스트 및 최적화

텍스트를 추출한 후, 정확성을 위해 출력을 테스트합니다. 필요에 따라 다양한 문서 레이아웃에 대한 결과를 개선하기 위해 OCR 설정을 조정할 수 있습니다.


일반적인 문제 및 해결책

1. 낮은 OCR 정확도

  • 해결책: 스캔한 PDF의 품질이 높도록 하십시오. 인식 정확도를 향상시키기 위해 고해상도 스캔을 사용하세요.

2. 지원되지 않는 글꼴

  • 해결책: 비라틴 문자의 인식을 향상시키기 위해 OCR 옵션에서 올바른 언어 설정을 제공하십시오.

3. 느린 성능

  • 해결책: 특히 대형 문서의 경우 PDF를 더 작은 청크나 페이지로 나누어 더 빠르게 처리하십시오.
 한국어