Aspose.OCR을 사용하여 스캔 된 PDF에서 텍스트를 추출하는 방법

Aspose.OCR을 사용하여 스캔 된 PDF에서 텍스트를 추출하는 방법

스캔 또는 이미지 기반 PDF 파일에서 텍스트를 추출하는 것은 복잡한 작업 흐름이나 비싼 수동 작업을 요구하는 데 사용됩니다. ASPOSE.OCR Scanned PDF to Text for .NET, 당신은이 과정을 자동화 할 수 있습니다, PDF를 검색 및 편집 가능한 문서로 변환 단지 몇 개의 코드 라인.

현실 세계 문제

조직은 종종 계약, 보고서 또는 파일을 스캔 된 PDF로 받습니다.이 문서 내에서 텍스트를 수동으로 복사하거나 검색하는 것은 지루하고 오류가 발생하며 준수, 아카이브 및 디지털 변환 프로젝트를 느리게합니다.

솔루션 검토

Aspose.OCR for .NET은 스캔된 PDF를 배치하여 텍스트 또는 검색 가능한 PDF로 변환하여 정보가 접근 가능하고 인덱스 가능하며 디지털 작업 흐름을 준비할 수 있습니다.

원칙

시작하기 전에, 당신이 가지고 있는지 확인:

  • Visual Studio 2019 또는 이후
  • .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
  • NuGet에서 .NET을 위한 ASPOSE.OCR
  • 기본 C# 지식
PM> Install-Package Aspose.OCR

단계별 실행

단계 1 : ASPOSE.OCR 설치 및 설정

NuGet 패키지와 Aspose.OCR 참조를 추가하십시오 :

using Aspose.OCR;

2단계 : 스캔된 PDF 파일을 추가합니다.

PDF 입력을 위한 OcrInput 개체를 만들고 스캔된 PDF 파일을 추가합니다.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

단계 3: 인식 설정을 설정

문서에 맞게 언어 및 기타 인식 설정을 설정합니다.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

단계 4 : 인식 프로세스를 실행

스캔 된 PDF에서 텍스트를 인식하십시오 :

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5단계: 인식된 텍스트를 저장하거나 수출하십시오.

인식 된 텍스트를 파일로 내보내거나 결과를 검색 가능한 PDF로 변환합니다.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

단계 6 : 오류 처리 추가

강도를 위해 시도/캡처 블록에 인식을 삽입합니다.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

단계 7 : 대형 또는 다중 페이지 PDF를 최적화합니다.

  • 거대한 파일을 위한 페이지별 PDF 처리
  • 최고의 결과를 위해 높은 품질의 스캔을 사용하십시오.
  • 대형 컬렉션을 위한 배치 프로세스
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

단계 8 : 완전한 작업 예제

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

사례 및 응용 프로그램 사용

디지털 Archive

스캔 된 문서의 전체 라이브러리를 검색 가능하고 인덱스 할 수있는 파일로 변환하여 준수 및 지식 관리.

법률 및 계약 관리

검토, 자동화 또는 디지털 서명을 위해 PDF에서 계약 조항 또는 조건을 추출합니다.

Streamlined 문서 검색

파일, 지식 기반 또는 사례 파일에서 빠른 전체 텍스트 검색을 가능하게 합니다.

일반적인 도전과 해결책

도전 1 : 낮은 품질 또는 스케이드 스캔

** 솔루션:** 가능한 한 사전 처리 필터 및 고품질 스캔을 사용하십시오.

도전 2 : 다국어 PDF

** 솔루션:** 여러 언어 옵션을 사용하여 인식 설정 또는 프로세스에서 언론을 설정합니다.

도전 3 : 매우 큰 PDF 파일

** 솔루션:** 배치 또는 페이지별로 처리하고 메모리 사용을 모니터링합니다.

성과 고려 사항

  • 스캔된 PDF를 위한 최적의 DPI (300+) 사용
  • 최고의 통과를 위한 배치 프로세스
  • OCR 개체 및 닫힌 파일 핸들

모범 사례

  • 추가 자동화 전에 OCR 출력 확인
  • 조직 및 원본 PDF 파일 백업
  • 작업 흐름을 위해 올바른 SaveFormat를 사용하십시오.
  • 새로운 PDF 기능을 위해 Aspose.OCR을 정기적으로 업데이트합니다.

고급 시나리오

시나리오 1 : PDF에서 특정 페이지만 추출

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

시나리오 2 : 여러 형식으로 수출

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

결론

Aspose.OCR for .NET은 스캔된 PDF를 실행 가능한 텍스트 및 검색 가능한 파일로 변환하여 수동 입력을 제거하고 전체 조직에 정보를 접근할 수 있게 해줍니다.

자세한 내용과 예를 보려면 다음을 참조하십시오. .NET API 참조를 위한 ASPOSE.OCR .

 한국어