Aspose.OCR을 사용하여 디지털 아카이브에서 검색을 향상시키는 방법

수백만 개의 스캔 된 문서와 이미지가 디지털 아카이브에 저장되지만, 텍스트가 추출되고 인덱스되지 않으면 그 내용을 검색하는 것은 불가능합니다. .NET의 Aspose.OCR은 모든 문서를 계약에서 역사 신문에 이르기까지 테스트로 검색할 수 있게 해주면서 파일 가치를 해제 할 수 있습니다.

현실 세계 문제

아카이브는 스캔 된 계약, 책, 기사, 또는 이미지로 포장됩니다. 사용자는 텍스트가 추출되지 않는 한 이러한 파일 내부를 검색 할 수 없습니다, 연구, 법적 검토 또는 eDiscovery를 느리게합니다.

솔루션 검토

Aspose.OCR for .NET batch는 스캔 된 이미지 또는 PDF에서 텍스트를 추출하고이 데이터를 좋아하는 검색 솔루션에 공급 할 수있게 해줍니다 - 대규모 아카이브를 통해 완전한 문자 검색, 태그 및 정보 수신을 가능하게합니다.

원칙

당신이 가지고 있는지 확인하십시오 :

Visual Studio 2019 또는 이후
.NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
NuGet에서 .NET을 위한 ASPOSE.OCR
기본 C# 기술

PM> Install-Package Aspose.OCR

단계별 실행

단계 1 : ASPOSE.OCR 설치 및 설정

using Aspose.OCR;

단계 2 : 파일을 구성하십시오.

모든 스캔 된 이미지 또는 PDF를 논리적 인 폴더 구조로 수집하여 쉽게 배치 처리 할 수 있습니다.

string archivePath = "./archive";
string[] files = Directory.GetFiles(archivePath, "*.pdf");

단계 3: 인식 설정을 설정

언어, 문서 배열 및 배치 실행을위한 최적화에 대 한 톤.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Good for mixed archive content

단계 4 : 배치에서 텍스트 추출

OcrInput input = new OcrInput(InputType.PDF);
foreach (string file in files)
{
    input.Add(file);
}
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5단계: 인덱스를 위해 추출 된 텍스트를 저장합니다.

foreach (RecognitionResult result in results)
{
    string textFile = Path.ChangeExtension(result.FilePath, ".txt");
    result.Save(textFile, SaveFormat.Text);
}

단계 6 : 검색 인덱스를 구축하거나 업데이트합니다.

Lucene.NET, ElasticSearch 또는 선호하는 인덱스/ 검색 도구와 통합하십시오. 빠른 아카이브 검색을 위해 추출 된 텍스트와 메타 데이터를 사용합니다.

단계 7 : 검색을 Viewer와 통합하십시오.

검색 인덱스를 아카이브의 웹 인터페이스, 문서 뷰어 또는 연구 도구에 연결하여 전체 텍스트 결과를 얻으십시오.

단계 8 : 오류 처리 추가

try
{
    // All recognition and indexing code here
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

단계 9 : 테스트 및 검증

샘플 쿼리를 실행하고 아카이브가 완전히 검색 가능하다는 것을 확인합니다.

사례 및 응용 프로그램 사용

디지털 도서관 및 박물관

디지털화 된 책, 매뉴얼 및 컬렉션을 위한 전체 텍스트 검색을 가능하게 합니다.

기업 및 법률 아카이브

계약, 메모 및 보고서를 즉시 찾으십시오 - 원본 형식에 상관없이.

학술 및 신문 아카이브

연구자들은 역사적 문서, 기사 또는 검열 데이터를 신속하게 검색할 수 있습니다.

일반적인 도전과 해결책

도전 1 : 다양한 종류의 문서

** 솔루션:** 다른 문서 레이아웃에서 AUTO 모드 및 테스트 인식을 사용합니다.

도전 2 : 오래된 또는 손상된 문서에 대한 OCR 정확성

** 솔루션:** 대조/분해를 위한 사전 처리 또는 언어 및 필터 설정을 사용합니다.

도전 3 : 스케일 및 성과

** 솔루션:** 배치 프로세스와 동시에 자원 사용 모니터링.

성과 고려 사항

관리 가능한 배치에서 프로세스 아카이브
효율적인 인덱스 형식으로 추출 된 텍스트를 저장
메모리 모니터 및 파일 I/O 대규모 라운드

모범 사례

더 쉬운 인덱스를 위해 문서 유형 또는 연도에 따라 아카이브를 조직하십시오.
귀하의 아카이브가 성장함에 따라 정기적으로 다시 인덱스
메타 데이터(일, 저자, 유형)를 사용하여 검색 관련성을 향상시킵니다.
원본 파일 및 추출 된 텍스트 백업

고급 시나리오

시나리오 1: 다국어 아카이브 검색

settings.Language = Language.Spanish;

시나리오 2 : 검색 가능한 PDF로 수출

foreach (RecognitionResult result in results)
{
    result.Save(Path.ChangeExtension(result.FilePath, ".pdf"), SaveFormat.Pdf);
}

결론

ASPOSE.OCR for .NET을 사용하면 정적 디지털 아카이브를 풍부하고 완전히 검색 가능한 자원으로 변환할 수 있으며, 이는 준수, 연구 및 빠른 정보 발견을 가능하게 합니다.

더 많은 통합 팁과 API 예를 찾으십시오. .NET API 참조를 위한 ASPOSE.OCR .