스캔 된 PDF를 .NET에서 검색 가능한 텍스트 문서로 변환하는 방법

스캔 된 PDF를 .NET에서 검색 가능한 텍스트 문서로 변환하는 방법

스캔된 PDF는 일반적으로 편집할 수 없는 이미지 기반 파일이므로 텍스트를 추출하기가 어렵습니다. Aspose.OCR for .NET를 사용하면 이러한 스캔된 PDF를 편집할 수 있는, 검색할 수 있는 텍스트 문서로 빠르게 변환할 수 있으므로 데이터 복구 및 문서 관리가 훨씬 쉽습니다.

왜 스캔 된 PDF를 검색 가능한 텍스트로 변환해야합니까?

  • 확장된 접근성:- 스캔된 PDF는 검색 및 편집 가능한 텍스트로 변환하여 콘텐츠에 대한 더 나은 접근성을 허용할 수 있습니다.

  • 데이터 조직:- 변환되면 텍스트는 Word, Excel 또는 평면 텍스트와 같은 다양한 형식으로 조직, 조작 및 재사용할 수 있습니다.

  • 컨텐츠 보유:- Aspose.OCR은 원본 이미지와 레이아웃이 텍스트를 추출하는 동안 보존되며 콘텐츠와 맥락 모두를 제공합니다.

원칙: 스캔 된 PDF 변환 준비

스캔 된 PDF에서 텍스트를 추출하는 과정을 시작하기 전에 다음을 확인하십시오 :

  • NET에 대한 Aspose.OCR 설치:- 명령을 사용하여 NuGet를 사용하여 필요한 도서관을 설치하십시오 : dotnet add package Aspose.OCR

  • 라이센스 설정:- 를 사용하여 측정된 라이센스를 얻고 설정합니다. SetMeteredKey() 모든 기능을 해제하는 방법.

  • 당신의 스캔 된 PDF를 준비하십시오:- 스캔된 PDF가 최상의 OCR 결과를 위해 좋은 품질 (300 DPI 이상)에 있는지 확인하십시오.

스캔 된 PDF를 텍스트로 변환하는 단계별 가이드

단계 1: 귀하의 라이센스를 설정

기능에 대한 완전한 액세스를 보장하기 위해 Aspose.OCR 라이센스를 구성하여 시작하십시오.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

2단계: 스캔된 PDF를 OCR 입력 항목으로 업로드합니다.

스캔된 PDF 파일을 텍스트 인식 엔진에 업로드합니다.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

3단계: 인식을 위한 OCR 엔진 설정

스캔된 PDF에서 텍스트 추출을 최적화하기 위해 OCR 엔진을 설정합니다.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

단계 4 : 인식 된 텍스트를 추출하고 저장

스캔된 PDF를 처리하여 텍스트를 추출하고 파일로 출력합니다.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

단계 5 : 인식된 텍스트를 테스트합니다.

추출 후, 출력 파일을 확인하거나 콘솔에 표시함으로써 텍스트 인식의 정확성을 확인합니다.

일반적인 문제와 고정

1) 오프화이트 정확도

  • 솔루션: 더 나은 인식 정확성을 위해 스캔된 PDF 품질이 높은지 확인하십시오 (300 DPI 이상).

2) 언어의 잘못된 인식

  • 솔루션: 더 나은 결과를 위해 RecognitionSettings에서 언어 설정을 명확하게 지정합니다.

3) 대형 파일에 대한 느린 성능

  • 솔루션: 큰 PDF를 조각으로 처리하거나 OCR 프로세스를 가속화하기 위해 메모리 사용을 최적화합니다.
 한국어