Aspose.OCR을 사용하여 책과 다열 문서를 디지털화하는 방법

책과 잡지의 검사 또는 촬영은 종종 복잡하고 다열 이미지로 이어집니다 - 표준 OCR에 도전합니다. .NET을위한 Aspose.OCR은 도서관, 연구 및 출판에 적합한 구조화 된, 열 주문 텍스트를 신뢰할 수있는 고급 설정을 제공 합니다.

현실 세계 문제

책, 신문 및 저널은 종종 열, 발자국 및 그림으로 스캔 된 이미지로 저장됩니다. 읽을 수있는, 구조화 된 텍스트를 수동으로 추출하는 것은 느리고, 오류가 발생하며, 도서관이나 아카이브에 비싸다.

솔루션 검토

Aspose.OCR for .NET은 다열 및 복잡한 배열을 처리하여 읽기 순서를 유지하고 책과 잡지의 대량 디지털화를 자동화하고 시간을 절약하고 연구자와 출판사에 대한 데이터 정확성을 향상시킵니다.

원칙

당신이 가지고 있는지 확인하십시오 :

Visual Studio 2019 또는 이후
.NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
NuGet에서 .NET을 위한 Aspose.OCR
기본 C# 기술

PM> Install-Package Aspose.OCR

단계별 실행

단계 1 : Aspose.OCR 설치 및 설정

using Aspose.OCR;

단계 2 : 책 / 잡지 페이지를 스캔하거나 사진을 찍으십시오.

배치 인식에 대한 입력에 모든 스캔 된 페이지 이미지를 추가합니다.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

3단계: 멀티 컬럼 인식 설정을 설정

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

단계 4: 구조된 순서로 텍스트를 추출

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

단계 5 : 디지털 텍스트를 수출하거나 저장

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

단계 6: 오류 처리 및 품질 검사를 추가

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

단계 7 : 대량 또는 희귀 책을 최적화

배치 모든 책 페이지를 폴더로 처리
희귀 또는 오래된 책에 대한 고급 스캔을 사용하십시오.
전체 컬렉션을 실행하기 전에 샘플 페이지를 확인합니다.

foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

단계 8 : 완전한 예제

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

사례 및 응용 프로그램 사용

도서관 및 디지털 인류

디지털 대출, 검색 및 희귀 책 및 역사 신문의 분석을 가능하게합니다.

학술 및 연구 출판

쉽게 전자 액세스를 위해 저널, 컨퍼런스 프로세스 또는 텍스트 책을 디지털화합니다.

다국어 및 복잡한 레이아웃

외국어 열, 측면 또는 발목을 가진 잡지에서 콘텐츠를 추출합니다.

일반적인 도전과 해결책

도전 1 : 열이나 그림을 제외하고

솔루션: 높은 품질의 스캔을 사용하고, 최고의 읽기 순서를 위해 문서/자동 모드를 테스트합니다.

도전 2 : 오래된 또는 손상된 책에 대한 OCR 품질

솔루션: 대량 처리 전에 스캔을 향상시키고 결과를 확인합니다.

도전 3 : 대규모 규모 디지털화

솔루션: 자동 배치 작업 흐름 및 대규모 작업에 오류 처리 사용.

성과 고려 사항

좋은 출처 스캔, 특히 희귀 또는 취약한 책을 사용하십시오.
스케일을 위한 배치 프로세스
유연한 형식으로 디지털 출력 저장 (텍스트, Word, PDF)

모범 사례

정확성을 위해 원본 페이지에 대한 출력 검증
책 페이지를 볼륨과 장에 따라 조직하여 쉽게 복구할 수 있습니다.
스캔과 디지털 텍스트 모두 백업
최신 개선을 위한 OCR 엔진 업데이트

고급 시나리오

시나리오 1 : 다국어 잡지를 디지털화

settings.Language = Language.German;

시나리오 2 : eBook 리더를 위한 PDF 수출

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

결론

.NET을 위한 Aspose.OCR은 책과 복잡한 출판물을 디지털 시대에 가져오고 검색, 분석 및 공유할 준비가 되어 있는 가장 빠른 방법입니다.

더 많은 예와 통합 팁을 참조하십시오 .NET API 참조를 위한 Aspose.OCR .