Aspose.OCR을 사용하여 .NET에서 스캔 된 PDF에서 텍스트를 추출하는 방법

Aspose.OCR을 사용하여 .NET에서 스캔 된 PDF에서 텍스트를 추출하는 방법

스캔된 PDF는 기본적으로 단순한 텍스트 이미지이기 때문에 종종 작업에 어려움을 겪습니다.이 이미지를 검색 가능하고 편집 가능한 텍스트 문서로 변환하면 문서 관리 및 콘텐츠 접근 가능성의 세계가 열립니다. Aspose.OCR for .NET를 사용하면 스캔된 PDF를 완전히 검색 가능한 문서로 변환하여 원본 이미지를 보존할 수 있습니다.

왜 OCR (Optical Character Recognition)가 스캔 된 PDF에 중요합니까?

  • 데이터 추출:- OCR는 스캔 된 텍스트를 기계 읽을 수있는 데이터로 변환하여 편집 및 인덱스 할 수 있습니다.

  • 검색 가능성:- 스캔된 PDF를 검색 가능한 문서로 변환하면 페이지를 수동으로 검색하지 않고 관련 정보를 빠르게 찾을 수 있습니다.

  • 생산성 향상:- 시간을 절약하여 스캔 된 문서의 변환을 Word 또는 Excel과 같은 편집 가능한 형식으로 자동화합니다.

원칙: 스캔 된 PDF 텍스트 추출에 대한 설정

스캔 된 PDF에서 텍스트를 추출하기 시작하기 전에 다음 단계가 완료되도록하십시오 :

  • NET에 대한 Aspose.OCR 설치:- NuGet을 사용하여 프로젝트에 Aspose.OCR를 추가하십시오 : dotnet add package Aspose.OCR

  • Metered 라이센스를 얻으십시오:- 측정된 라이센스를 설정하여 Aspose.OCR 라이브러리의 모든 기능을 해제합니다. SetMeteredKey().

  • 당신의 스캔 된 PDF를 준비하십시오:- 스캔된 PDF는 높은 품질입니다.더 정확한 OCR에서 더 나은 품질의 결과.

단계별 가이드 : 스캔 된 PDF에서 텍스트 추출

단계 1 : 필요한 도서관을 설치합니다.

프로젝트에 Aspose.OCR for .NET를 설치하여 시작하십시오.이 작업은 NuGet에서 직접 수행할 수 있습니다.

dotnet add package Aspose.OCR

단계 2 : 라이센스 키를 설정합니다.

진행하기 전에 Aspose.OCR에 대한 라이센스를 설정하여 모든 기능을 해제하십시오.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

3단계: 스캔된 PDF를 OCR 입력 항목으로 업로드합니다.

당신은 스캔 된 PDF를 다운로드해야합니다. OcrInput 개체. Aspose.OCR PDF의 여러 페이지를 스캔하는 것을 지원합니다.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

단계 4: OCR 엔진을 사용하여 스캔된 PDF를 처리합니다.

PDF가 충전되면 인식을 위해 Aspose OCR 엔진으로 전송합니다.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

5단계: 인식된 텍스트를 꺼내거나 저장합니다.

OCR 엔진이 PDF를 처리하면 인식 된 텍스트를 직접 출력하거나 파일에 저장할 수 있습니다.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

단계 6: 테스트 및 OCR 결과를 최적화

텍스트를 추출 한 후 정확성을 위해 출력을 테스트하십시오.필요한 경우 다른 문서 배열에 대한 결과를 향상시키기 위해 OCR 설정을 두드릴 수 있습니다.

일반적인 문제와 고정

1) 오프화이트 정확도

  • 솔루션: 스캔된 PDF 품질이 높은지 확인합니다. 고해상도 스캔을 사용하여 인식 정확도를 향상시킵니다.

2) 지원되지 않은 글꼴

  • 솔루션: OCR 옵션에서 올바른 언어 설정을 제공하여 비 라틴 문자에 대한 인식을 향상시킵니다.

3) 느린 성과

  • 솔루션: PDF를 더 빠른 처리, 특히 큰 문서에 대 한 더 작은 조각 또는 페이지로 분해.
 한국어