Aspose.OCR을 사용하여 .NET에서 스캔 된 PDF에서 텍스트를 추출하는 방법
스캔된 PDF는 기본적으로 단순한 텍스트 이미지이기 때문에 종종 작업에 어려움을 겪습니다.이 이미지를 검색 가능하고 편집 가능한 텍스트 문서로 변환하면 문서 관리 및 콘텐츠 접근 가능성의 세계가 열립니다. Aspose.OCR for .NET를 사용하면 스캔된 PDF를 완전히 검색 가능한 문서로 변환하여 원본 이미지를 보존할 수 있습니다.
왜 OCR (Optical Character Recognition)가 스캔 된 PDF에 중요합니까?
데이터 추출:- OCR는 스캔 된 텍스트를 기계 읽을 수있는 데이터로 변환하여 편집 및 인덱스 할 수 있습니다.
검색 가능성:- 스캔된 PDF를 검색 가능한 문서로 변환하면 페이지를 수동으로 검색하지 않고 관련 정보를 빠르게 찾을 수 있습니다.
생산성 향상:- 시간을 절약하여 스캔 된 문서의 변환을 Word 또는 Excel과 같은 편집 가능한 형식으로 자동화합니다.
원칙: 스캔 된 PDF 텍스트 추출에 대한 설정
스캔 된 PDF에서 텍스트를 추출하기 시작하기 전에 다음 단계가 완료되도록하십시오 :
NET에 대한 Aspose.OCR 설치:- NuGet을 사용하여 프로젝트에 Aspose.OCR를 추가하십시오 :
dotnet add package Aspose.OCR
Metered 라이센스를 얻으십시오:- 측정된 라이센스를 설정하여 Aspose.OCR 라이브러리의 모든 기능을 해제합니다.
SetMeteredKey()
.당신의 스캔 된 PDF를 준비하십시오:- 스캔된 PDF는 높은 품질입니다.더 정확한 OCR에서 더 나은 품질의 결과.
단계별 가이드 : 스캔 된 PDF에서 텍스트 추출
단계 1 : 필요한 도서관을 설치합니다.
프로젝트에 Aspose.OCR for .NET를 설치하여 시작하십시오.이 작업은 NuGet에서 직접 수행할 수 있습니다.
dotnet add package Aspose.OCR
단계 2 : 라이센스 키를 설정합니다.
진행하기 전에 Aspose.OCR에 대한 라이센스를 설정하여 모든 기능을 해제하십시오.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
3단계: 스캔된 PDF를 OCR 입력 항목으로 업로드합니다.
당신은 스캔 된 PDF를 다운로드해야합니다. OcrInput
개체. Aspose.OCR PDF의 여러 페이지를 스캔하는 것을 지원합니다.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
단계 4: OCR 엔진을 사용하여 스캔된 PDF를 처리합니다.
PDF가 충전되면 인식을 위해 Aspose OCR 엔진으로 전송합니다.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
5단계: 인식된 텍스트를 꺼내거나 저장합니다.
OCR 엔진이 PDF를 처리하면 인식 된 텍스트를 직접 출력하거나 파일에 저장할 수 있습니다.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
단계 6: 테스트 및 OCR 결과를 최적화
텍스트를 추출 한 후 정확성을 위해 출력을 테스트하십시오.필요한 경우 다른 문서 배열에 대한 결과를 향상시키기 위해 OCR 설정을 두드릴 수 있습니다.
일반적인 문제와 고정
1) 오프화이트 정확도
- 솔루션: 스캔된 PDF 품질이 높은지 확인합니다. 고해상도 스캔을 사용하여 인식 정확도를 향상시킵니다.
2) 지원되지 않은 글꼴
- 솔루션: OCR 옵션에서 올바른 언어 설정을 제공하여 비 라틴 문자에 대한 인식을 향상시킵니다.
3) 느린 성과
- 솔루션: PDF를 더 빠른 처리, 특히 큰 문서에 대 한 더 작은 조각 또는 페이지로 분해.