스캔 된 PDF를 검색 가능한 문서로 변환하는 방법
많은 귀중한 문서가 스캔 된 PDF에 갇혀 있으므로 검색 엔진이나 생산성 도구에 검색할 수 없으며 접근 할 수 없습니다. Aspose.OCR Scanned PDF to Text for .NET은 이러한 정적 파일을 최소 코드가있는 완전히 검색 가능하고 편집 가능한 서류로 변환합니다.
현실 세계 문제
스캔된 PDF 계약, 책 또는 아카이브는 텍스트가 추출되지 않는 한 검색, 인덱스 또는 복사 할 수 없습니다.수동 리티핑은 느리고 비싸며 오류가 발생할 위험이 있습니다.
솔루션 검토
Aspose.OCR for .NET은 스캔된 PDF를 배치하여 다양한 형식의 텍스트를 추출하고 수출할 수 있으며, 문서를 검색 가능하고, 인덱스 가능하며, 디지털 작업 흐름이나 준수에 대비할 준비가 되어 있습니다.
원칙
- Visual Studio 2019 또는 이후
- .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
- NuGet에서 .NET을 위한 ASPOSE.OCR
- 기본 C# 프로그래밍 경험
PM> Install-Package Aspose.OCR
단계별 실행
단계 1 : ASPOSE.OCR 설치 및 설정
using Aspose.OCR;
2단계: 스캔된 PDF 파일 추가
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
단계 3: PDF에 대한 인식 설정을 설정합니다.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts
단계 4: 스캔된 PDF에서 OCR를 실행합니다.
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
단계 5 : 검색 가능한 형식으로 수출
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf); // Searchable PDF
result.Save("archive_text.txt", SaveFormat.Text); // Plain text
result.Save("archive_word.docx", SaveFormat.Docx); // Word document
}
단계 6 : 오류 처리 및 인증을 추가
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
단계 7 : 멀티 페이지 및 큰 PDF에 대한 최적화
- 여러 페이지가 있는 PDF에서는 파일을 추가하고 필요한 경우 페이지 범위를 설정합니다.
- 문서 레이아웃 및 언어에 대한 톤 설정
- 모든 파일을 하나의 디렉토리에 배치합니다.
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
단계 8 : 완전한 예제
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf);
result.Save("archive_text.txt", SaveFormat.Text);
result.Save("archive_word.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
사례 및 응용 프로그램 사용
디지털 아카이브 검색
정적, 스캔 된 아카이브를 도서관, 법률 회사 또는 기업에 대한 검색 가능한 인덱스 자원으로 변환합니다.
규제 및 준수 디지털화
검증 및 감사를 위해 스캔 된 준수 문서에서 텍스트를 추출합니다.
학문 및 책 출판
디지털 액세스, 전자 학습 또는 배포를 위한 텍스트책과 연구 종이를 계산하십시오.
일반적인 도전과 해결책
도전 1 : 낮은 품질 또는 스케이드 스캔
** 솔루션:** 명확성을 위한 사전 처리; 안정적인 배치 처리를 위한 AUTO 모드를 사용합니다.
도전 2 : 다국어 PDF
** 솔루션:** 언어 설정을 조정하고 샘플 파일을 테스트합니다.
도전 3 : 매우 큰 또는 배치 파일
** 솔루션:** 관리 가능한 배치에서 프로세스 및 메모리 사용 모니터링.
성과 고려 사항
- 최대 효율성을 위한 배치 프로세스
- 좋은 품질의 스캔 된 PDF를 사용하십시오.
- 사용 후 OCR 물건의 사용
모범 사례
- 통합하기 전에 출력 PDF에 대한 인증
- 더 쉽게 관리하기 위해 주제 또는 부서에 따라 PDF를 조직하십시오.
- 모든 스캔 및 처리 된 파일을 보안
- 최상의 정확성을 위해 Aspose.OCR의 최신 버전을 사용하십시오.
고급 시나리오
시나리오 1 : 데이터 파이프를 위한 JSON 수출
foreach (RecognitionResult result in results)
{
result.Save("archive_data.json", SaveFormat.Json);
}
시나리오 2 : 선택적 페이지 OCR
input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only
결론
ASPOSE.OCR 스캔된 PDF에서 텍스트로 .NET을 사용하면 스캐너 된 PDF를 현대 작업 흐름을 위한 검색 가능하고 편집 가능한 문서로 빠르게 변환할 수 있습니다.
더 많은 코드와 팁을 찾으십시오. .NET API 참조를 위한 ASPOSE.OCR .