Aspose.OCR을 사용하여 디지털 아카이브에서 검색을 향상시키는 방법
수백만 개의 스캔 된 문서와 이미지가 디지털 아카이브에 저장되지만, 텍스트가 추출되고 인덱스되지 않으면 그 내용을 검색하는 것은 불가능합니다. .NET의 Aspose.OCR은 모든 문서를 계약에서 역사 신문에 이르기까지 테스트로 검색할 수 있게 해주면서 파일 가치를 해제 할 수 있습니다.
현실 세계 문제
아카이브는 스캔 된 계약, 책, 기사, 또는 이미지로 포장됩니다. 사용자는 텍스트가 추출되지 않는 한 이러한 파일 내부를 검색 할 수 없습니다, 연구, 법적 검토 또는 eDiscovery를 느리게합니다.
솔루션 검토
Aspose.OCR for .NET batch는 스캔 된 이미지 또는 PDF에서 텍스트를 추출하고이 데이터를 좋아하는 검색 솔루션에 공급 할 수있게 해줍니다 - 대규모 아카이브를 통해 완전한 문자 검색, 태그 및 정보 수신을 가능하게합니다.
원칙
당신이 가지고 있는지 확인하십시오 :
- Visual Studio 2019 또는 이후
- .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
- NuGet에서 .NET을 위한 ASPOSE.OCR
- 기본 C# 기술
PM> Install-Package Aspose.OCR
단계별 실행
단계 1 : ASPOSE.OCR 설치 및 설정
using Aspose.OCR;
단계 2 : 파일을 구성하십시오.
모든 스캔 된 이미지 또는 PDF를 논리적 인 폴더 구조로 수집하여 쉽게 배치 처리 할 수 있습니다.
string archivePath = "./archive";
string[] files = Directory.GetFiles(archivePath, "*.pdf");
단계 3: 인식 설정을 설정
언어, 문서 배열 및 배치 실행을위한 최적화에 대 한 톤.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Good for mixed archive content
단계 4 : 배치에서 텍스트 추출
OcrInput input = new OcrInput(InputType.PDF);
foreach (string file in files)
{
input.Add(file);
}
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5단계: 인덱스를 위해 추출 된 텍스트를 저장합니다.
foreach (RecognitionResult result in results)
{
string textFile = Path.ChangeExtension(result.FilePath, ".txt");
result.Save(textFile, SaveFormat.Text);
}
단계 6 : 검색 인덱스를 구축하거나 업데이트합니다.
Lucene.NET, ElasticSearch 또는 선호하는 인덱스/ 검색 도구와 통합하십시오. 빠른 아카이브 검색을 위해 추출 된 텍스트와 메타 데이터를 사용합니다.
단계 7 : 검색을 Viewer와 통합하십시오.
검색 인덱스를 아카이브의 웹 인터페이스, 문서 뷰어 또는 연구 도구에 연결하여 전체 텍스트 결과를 얻으십시오.
단계 8 : 오류 처리 추가
try
{
// All recognition and indexing code here
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
단계 9 : 테스트 및 검증
샘플 쿼리를 실행하고 아카이브가 완전히 검색 가능하다는 것을 확인합니다.
사례 및 응용 프로그램 사용
디지털 도서관 및 박물관
디지털화 된 책, 매뉴얼 및 컬렉션을 위한 전체 텍스트 검색을 가능하게 합니다.
기업 및 법률 아카이브
계약, 메모 및 보고서를 즉시 찾으십시오 - 원본 형식에 상관없이.
학술 및 신문 아카이브
연구자들은 역사적 문서, 기사 또는 검열 데이터를 신속하게 검색할 수 있습니다.
일반적인 도전과 해결책
도전 1 : 다양한 종류의 문서
** 솔루션:** 다른 문서 레이아웃에서 AUTO 모드 및 테스트 인식을 사용합니다.
도전 2 : 오래된 또는 손상된 문서에 대한 OCR 정확성
** 솔루션:** 대조/분해를 위한 사전 처리 또는 언어 및 필터 설정을 사용합니다.
도전 3 : 스케일 및 성과
** 솔루션:** 배치 프로세스와 동시에 자원 사용 모니터링.
성과 고려 사항
- 관리 가능한 배치에서 프로세스 아카이브
- 효율적인 인덱스 형식으로 추출 된 텍스트를 저장
- 메모리 모니터 및 파일 I/O 대규모 라운드
모범 사례
- 더 쉬운 인덱스를 위해 문서 유형 또는 연도에 따라 아카이브를 조직하십시오.
- 귀하의 아카이브가 성장함에 따라 정기적으로 다시 인덱스
- 메타 데이터(일, 저자, 유형)를 사용하여 검색 관련성을 향상시킵니다.
- 원본 파일 및 추출 된 텍스트 백업
고급 시나리오
시나리오 1: 다국어 아카이브 검색
settings.Language = Language.Spanish;
시나리오 2 : 검색 가능한 PDF로 수출
foreach (RecognitionResult result in results)
{
result.Save(Path.ChangeExtension(result.FilePath, ".pdf"), SaveFormat.Pdf);
}
결론
ASPOSE.OCR for .NET을 사용하면 정적 디지털 아카이브를 풍부하고 완전히 검색 가능한 자원으로 변환할 수 있으며, 이는 준수, 연구 및 빠른 정보 발견을 가능하게 합니다.
더 많은 통합 팁과 API 예를 찾으십시오. .NET API 참조를 위한 ASPOSE.OCR .