스캔 된 PDF를 .NET에서 검색 가능한 텍스트 문서로 변환하는 방법

스캔 된 PDF를 .NET에서 검색 가능한 텍스트 문서로 변환하는 방법

스캔된 PDF는 기본적으로 단순한 텍스트 이미지이기 때문에 종종 작업에 어려움을 겪습니다.이 이미지를 검색 가능하고 편집 가능한 텍스트 문서로 변환하면 문서 관리 및 콘텐츠 접근 가능성의 세계가 열립니다. Aspose.OCR for .NET를 사용하면 스캔된 PDF를 완전히 검색 가능한 문서로 변환하여 원본 이미지를 보존할 수 있습니다.

왜 스캔 된 PDF를 검색 가능한 텍스트 문서로 변환합니까?

  • 접근 가능성:- 스캔된 콘텐츠를 검색 가능하게 하며, 문서를 통해 수동으로 읽지 않고 정보를 쉽게 찾을 수 있습니다.

  • 컨텐츠 편집:- 텍스트로 변환되면 콘텐츠를 편집, 업데이트 또는 다른 형식으로 다시 사용할 수 있습니다.

  • 효율성:- 스캔된 PDF를 완전히 접근 가능한 텍스트 문서로 변환하는 과정을 자동화함으로써 시간을 절약합니다.

원칙: 스캔 된 PDF 텍스트 추출에 대한 설정

스캔 된 PDF에서 텍스트를 추출하기 전에, 모든 것이 설정되어 있는지 확인하기 위해 다음 단계를 따르십시오 :

  • NET에 대한 Aspose.OCR 설치:- NuGet을 사용하여 프로젝트에 Aspose.OCR를 추가하십시오 : dotnet add package Aspose.OCR

  • 당신의 라이센스를 얻으십시오:- 귀하의 측정 된 라이센스를 사용하여 설정 SetMeteredKey() Aspose.OCR의 완전한 기능을 해제합니다.

  • 당신의 스캔 된 PDF를 준비하십시오:- 스캔된 PDF가 더 나은 인식 정확성을 위해 좋은 품질을 보장합니다.

단계별 가이드 : 스캔 된 PDF를 검색 가능한 텍스트로 변환

단계 1 : 당신의 라이센스를 설정

시작하여 Aspose.OCR 라이센스를 구성하여 모든 기능을 해제합니다.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

2단계: 스캔된 PDF를 OCR 입력 항목으로 업로드합니다.

다음으로 스캔된 PDF를 OcrInput 개체로 업로드하여 OCR 프로세스를 시작합니다.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

3단계: 인식을 위한 OCR 엔진 설정

OCR 엔진을 설정하고 언어와 정확성과 같은 모든 인식 설정을 설정합니다.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

단계 4 : 인식 된 텍스트를 추출하고 추출

이제 OCR 엔진을 사용하여 스캔된 PDF에서 텍스트를 추출합니다.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

단계 5 : 검색 가능한 PDF를 테스트합니다.

추출 된 텍스트가 PDF 시청자 또는 편집기에서 출력을 테스트하여 검색 및 편집 가능하도록하십시오.

일반적인 문제와 고정

1) 낮은 OCR 정확도

  • 솔루션: 인식 결과를 향상시키기 위해 스캔된 PDF가 높은 품질(최소 300 DPI)을 보장합니다.

2) 지원되지 않은 글꼴

  • 솔루션: 정확한 텍스트 인식, 특히 라틴어가 아닌 문자를 위해 OCR 설정에서 올바른 언어를 설정하십시오.

3) 대형 PDF에 대한 느린 성능

  • 솔루션: 큰 PDF에서는 메모리 사용량을 줄이고 프로세스를 가속화하기 위해 더 작은 조각이나 페이지로 문서를 처리합니다.
 한국어