Aspose.OCR을 사용하여 책과 다열 문서를 디지털화하는 방법

Aspose.OCR을 사용하여 책과 다열 문서를 디지털화하는 방법

책과 잡지의 검사 또는 촬영은 종종 복잡하고 다열 이미지로 이어집니다 - 표준 OCR에 도전합니다. .NET을위한 Aspose.OCR은 도서관, 연구 및 출판에 적합한 구조화 된, 열 주문 텍스트를 신뢰할 수있는 고급 설정을 제공 합니다.

현실 세계 문제

책, 신문 및 저널은 종종 열, 발자국 및 그림으로 스캔 된 이미지로 저장됩니다. 읽을 수있는, 구조화 된 텍스트를 수동으로 추출하는 것은 느리고, 오류가 발생하며, 도서관이나 아카이브에 비싸다.

솔루션 검토

Aspose.OCR for .NET은 다열 및 복잡한 배열을 처리하여 읽기 순서를 유지하고 책과 잡지의 대량 디지털화를 자동화하고 시간을 절약하고 연구자와 출판사에 대한 데이터 정확성을 향상시킵니다.

원칙

당신이 가지고 있는지 확인하십시오 :

  • Visual Studio 2019 또는 이후
  • .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
  • NuGet에서 .NET을 위한 ASPOSE.OCR
  • 기본 C# 기술
PM> Install-Package Aspose.OCR

단계별 실행

단계 1 : ASPOSE.OCR 설치 및 설정

using Aspose.OCR;

단계 2 : 책 / 잡지 페이지를 스캔하거나 사진을 찍으십시오.

배치 인식에 대한 입력에 모든 스캔 된 페이지 이미지를 추가합니다.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

3단계: 멀티 컬럼 인식 설정을 설정

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

단계 4: 구조된 순서로 텍스트를 추출

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

단계 5 : 디지털 텍스트를 수출하거나 저장

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

단계 6: 오류 처리 및 품질 검사를 추가

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

단계 7 : 대량 또는 희귀 책을 최적화

  • 배치 모든 책 페이지를 폴더로 처리
  • 희귀 또는 오래된 책에 대한 고급 스캔을 사용하십시오.
  • 전체 컬렉션을 실행하기 전에 샘플 페이지를 확인합니다.
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

단계 8 : 완전한 예제

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

사례 및 응용 프로그램 사용

도서관 및 디지털 인류

디지털 대출, 검색 및 희귀 책 및 역사 신문의 분석을 가능하게합니다.

학술 및 연구 출판

쉽게 전자 액세스를 위해 저널, 컨퍼런스 프로세스 또는 텍스트 책을 디지털화합니다.

다국어 및 복잡한 레이아웃

외국어 열, 측면 또는 발목을 가진 잡지에서 콘텐츠를 추출합니다.

일반적인 도전과 해결책

도전 1 : 열이나 그림을 제외하고

** 솔루션:** 높은 품질의 스캔을 사용하고, 최고의 읽기 순서를 위해 문서/자동 모드를 테스트합니다.

도전 2 : 오래된 또는 손상된 책에 대한 OCR 품질

** 솔루션:** 대량 처리 전에 스캔을 향상시키고 결과를 확인합니다.

도전 3 : 대규모 규모 디지털화

솔루션: 자동 배치 작업 흐름 및 대규모 작업에 오류 처리 사용.

성과 고려 사항

  • 좋은 출처 스캔, 특히 희귀 또는 취약한 책을 사용하십시오.
  • 스케일을 위한 배치 프로세스
  • 유연한 형식으로 디지털 출력 저장 (텍스트, Word, PDF)

모범 사례

  • 정확성을 위해 원본 페이지에 대한 출력 검증
  • 책 페이지를 볼륨과 장에 따라 조직하여 쉽게 복구할 수 있습니다.
  • 스캔과 디지털 텍스트 모두 백업
  • 최신 개선을 위한 OCR 엔진 업데이트

고급 시나리오

시나리오 1 : 다국어 잡지를 디지털화

settings.Language = Language.German;

시나리오 2 : eBook 리더를 위한 PDF 수출

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

결론

.NET을 위한 Aspose.OCR은 책과 복잡한 출판물을 디지털 시대에 가져오고 검색, 분석 및 공유할 준비가 되어 있는 가장 빠른 방법입니다.

더 많은 예와 통합 팁을 참조하십시오 .NET API 참조를 위한 ASPOSE.OCR .

 한국어