스캔 된 PDF를 검색 가능한 문서로 변환하는 방법

많은 귀중한 문서가 스캔 된 PDF에 갇혀 검색되지 않고 검색 엔진이나 생산성 도구에 접근 할 수 없습니다. PDF에 대하여 .NET 텍스트는 이러한 정적 파일을 최소 코드를 가진 완전히 검색 가능하고 편집 가능한 문서로 변환할 수 있습니다.

현실 세계 문제

스캔된 PDF 계약, 책 또는 아카이브는 텍스트가 추출되지 않는 한 검색, 인덱스 또는 복사 할 수 없습니다.수동 리티핑은 느리고 비싸며 오류가 발생할 위험이 있습니다.

솔루션 검토

Aspose.OCR for .NET은 스캔된 PDF를 배치하여 다양한 형식의 텍스트를 추출하고 수출할 수 있으며, 문서를 검색 가능하고, 인덱스 가능하며, 디지털 작업 흐름이나 준수에 대비할 준비가 되어 있습니다.

원칙

Visual Studio 2019 또는 이후
.NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
NuGet에서 .NET을 위한 Aspose.OCR
기본 C# 프로그래밍 경험

PM> Install-Package Aspose.OCR

단계별 실행

단계 1 : Aspose.OCR 설치 및 설정

using Aspose.OCR;

2단계: 스캔된 PDF 파일 추가

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");

단계 3: PDF에 대한 인식 설정을 설정합니다.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts

단계 4: 스캔된 PDF에서 OCR를 실행합니다.

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

단계 5 : 검색 가능한 형식으로 수출

foreach (RecognitionResult result in results)
{
    result.Save("archive_searchable.pdf", SaveFormat.Pdf);   // Searchable PDF
    result.Save("archive_text.txt", SaveFormat.Text);         // Plain text
    result.Save("archive_word.docx", SaveFormat.Docx);       // Word document
}

단계 6 : 오류 처리 및 인증을 추가

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

단계 7 : 멀티 페이지 및 큰 PDF에 대한 최적화

여러 페이지가 있는 PDF에서는 파일을 추가하고 필요한 경우 페이지 범위를 설정합니다.
문서 레이아웃 및 언어에 대한 톤 설정
모든 파일을 하나의 디렉토리에 배치합니다.

foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

단계 8 : 완전한 예제

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive1.pdf");
            input.Add("books.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("archive_searchable.pdf", SaveFormat.Pdf);
                result.Save("archive_text.txt", SaveFormat.Text);
                result.Save("archive_word.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

사례 및 응용 프로그램 사용

디지털 아카이브 검색

정적, 스캔 된 아카이브를 도서관, 법률 회사 또는 기업에 대한 검색 가능한 인덱스 자원으로 변환합니다.

규제 및 준수 디지털화

검증 및 감사를 위해 스캔 된 준수 문서에서 텍스트를 추출합니다.

학문 및 책 출판

디지털 액세스, 전자 학습 또는 배포를 위한 텍스트책과 연구 종이를 계산하십시오.

일반적인 도전과 해결책

도전 1 : 낮은 품질 또는 스케이드 스캔

솔루션: 명확성을 위한 사전 처리; 안정적인 배치 처리를 위한 AUTO 모드를 사용합니다.

도전 2 : 다국어 PDF

솔루션: 언어 설정을 조정하고 샘플 파일을 테스트합니다.

도전 3 : 매우 큰 또는 배치 파일

솔루션: 관리 가능한 배치에서 프로세스 및 메모리 사용 모니터링.

성과 고려 사항

최대 효율성을 위한 배치 프로세스
좋은 품질의 스캔 된 PDF를 사용하십시오.
사용 후 OCR 물건의 사용

모범 사례

통합하기 전에 출력 PDF에 대한 인증
더 쉽게 관리하기 위해 주제 또는 부서에 따라 PDF를 조직하십시오.
모든 스캔 및 처리 된 파일을 보안
최상의 정확성을 위해 Aspose.OCR의 최신 버전을 사용하십시오.

고급 시나리오

시나리오 1 : 데이터 파이프를 위한 JSON 수출

foreach (RecognitionResult result in results)
{
    result.Save("archive_data.json", SaveFormat.Json);
}

시나리오 2 : 선택적 페이지 OCR

input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only

결론

Aspose.OCR 스캔된 PDF에서 텍스트로 .NET을 사용하면 스캐너 된 PDF를 현대 작업 흐름을 위한 검색 가능하고 편집 가능한 문서로 빠르게 변환할 수 있습니다.

더 많은 코드와 팁을 찾으십시오. .NET API 참조를 위한 Aspose.OCR .