Aspose.OCR을 사용하여 책과 다열 문서를 디지털화하는 방법
책과 잡지의 검사 또는 촬영은 종종 복잡하고 다열 이미지로 이어집니다 - 표준 OCR에 도전합니다. .NET을위한 Aspose.OCR은 도서관, 연구 및 출판에 적합한 구조화 된, 열 주문 텍스트를 신뢰할 수있는 고급 설정을 제공 합니다.
현실 세계 문제
책, 신문 및 저널은 종종 열, 발자국 및 그림으로 스캔 된 이미지로 저장됩니다. 읽을 수있는, 구조화 된 텍스트를 수동으로 추출하는 것은 느리고, 오류가 발생하며, 도서관이나 아카이브에 비싸다.
솔루션 검토
Aspose.OCR for .NET은 다열 및 복잡한 배열을 처리하여 읽기 순서를 유지하고 책과 잡지의 대량 디지털화를 자동화하고 시간을 절약하고 연구자와 출판사에 대한 데이터 정확성을 향상시킵니다.
원칙
당신이 가지고 있는지 확인하십시오 :
- Visual Studio 2019 또는 이후
- .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
- NuGet에서 .NET을 위한 ASPOSE.OCR
- 기본 C# 기술
PM> Install-Package Aspose.OCR
단계별 실행
단계 1 : ASPOSE.OCR 설치 및 설정
using Aspose.OCR;
단계 2 : 책 / 잡지 페이지를 스캔하거나 사진을 찍으십시오.
배치 인식에 대한 입력에 모든 스캔 된 페이지 이미지를 추가합니다.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
3단계: 멀티 컬럼 인식 설정을 설정
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts
단계 4: 구조된 순서로 텍스트를 추출
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
단계 5 : 디지털 텍스트를 수출하거나 저장
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text); // Save as text
result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}
단계 6: 오류 처리 및 품질 검사를 추가
try
{
// OCR and export code
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
단계 7 : 대량 또는 희귀 책을 최적화
- 배치 모든 책 페이지를 폴더로 처리
- 희귀 또는 오래된 책에 대한 고급 스캔을 사용하십시오.
- 전체 컬렉션을 실행하기 전에 샘플 페이지를 확인합니다.
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
input.Add(file);
}
단계 8 : 완전한 예제
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text);
result.Save("book_page.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
사례 및 응용 프로그램 사용
도서관 및 디지털 인류
디지털 대출, 검색 및 희귀 책 및 역사 신문의 분석을 가능하게합니다.
학술 및 연구 출판
쉽게 전자 액세스를 위해 저널, 컨퍼런스 프로세스 또는 텍스트 책을 디지털화합니다.
다국어 및 복잡한 레이아웃
외국어 열, 측면 또는 발목을 가진 잡지에서 콘텐츠를 추출합니다.
일반적인 도전과 해결책
도전 1 : 열이나 그림을 제외하고
** 솔루션:** 높은 품질의 스캔을 사용하고, 최고의 읽기 순서를 위해 문서/자동 모드를 테스트합니다.
도전 2 : 오래된 또는 손상된 책에 대한 OCR 품질
** 솔루션:** 대량 처리 전에 스캔을 향상시키고 결과를 확인합니다.
도전 3 : 대규모 규모 디지털화
솔루션: 자동 배치 작업 흐름 및 대규모 작업에 오류 처리 사용.
성과 고려 사항
- 좋은 출처 스캔, 특히 희귀 또는 취약한 책을 사용하십시오.
- 스케일을 위한 배치 프로세스
- 유연한 형식으로 디지털 출력 저장 (텍스트, Word, PDF)
모범 사례
- 정확성을 위해 원본 페이지에 대한 출력 검증
- 책 페이지를 볼륨과 장에 따라 조직하여 쉽게 복구할 수 있습니다.
- 스캔과 디지털 텍스트 모두 백업
- 최신 개선을 위한 OCR 엔진 업데이트
고급 시나리오
시나리오 1 : 다국어 잡지를 디지털화
settings.Language = Language.German;
시나리오 2 : eBook 리더를 위한 PDF 수출
foreach (RecognitionResult result in results)
{
result.Save("book_page.pdf", SaveFormat.Pdf);
}
결론
.NET을 위한 Aspose.OCR은 책과 복잡한 출판물을 디지털 시대에 가져오고 검색, 분석 및 공유할 준비가 되어 있는 가장 빠른 방법입니다.
더 많은 예와 통합 팁을 참조하십시오 .NET API 참조를 위한 ASPOSE.OCR .