텍스트 추출기 플러그인 for Aspose.PDF
.NET을 위한 Aspose.PDF 텍스트 추출기 플러그인은 개발자가 PDF 파일에서 구조화된, 평평한 또는 아시스(as-is) 문자 콘텐츠를 추구할 수 있게 해줍니다. 3개의 추수 모드로 문서 변환, 데이터 광산, 접근성 개선 및 기타에 이상적입니다.
최신 기사
Aspose.PDF 텍스트 추출기 플러그인 키 기능
- 수많은 추출 모드*최대한의 유연성을 위해 순수한 (포맷), 원료 (as-is) 또는 평면 (깨끗한) 텍스트를 추출하십시오.
- 배치 PDF 처리*동시에 추출 및 유연한 작업 흐름을 위해 여러 PDF를 추가합니다.
- 간단한 .NET 통합*Straightforward API - 빠른 실행을 위해 C# 또는 .NET 프로젝트에 추가합니다.
** Aspose.PDF 텍스트 추출기 플러그인으로 시작하세요**
.NET을 위한 Aspose.PDF 설치NuGet를 통해 .NET 솔루션에 세트를 추가하거나 다운로드합니다.
당신의 라이센스를 설정하십시오무제한 처리 및 지원을 위해 활성화합니다.
- 추출 옵션 설정*사용하기
TextExtractor
그리고TextExtractorOptions
원하는 방식으로 추출 모드를 설정합니다 (깨끗, 원료, 평평).
- 추출 옵션 설정*사용하기
** 프로세스 및 리트리브 텍스트**결과 컨테이너 컬렉션을 통해 추출 및 액세스 결과를 실행합니다.
예: PDF에서 텍스트를 추출 (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
예: 여러 PDF에서 배치 추출 텍스트
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
*사용 사례 및 확장
- PDF에서 TXT로 변환: 인덱스, 검색 또는 아카이브를 위해 PDF를 깔끔한 텍스트로 자동으로 전환합니다.
- 데이터 광산: 추가 처리 또는 분석을 위해 테이블 데이터, 청구서 또는 양식을 추출합니다.
- ** 접근성:** 스크린 리더 또는 대체 형식의 읽을 수 있는 콘텐츠를 준비하십시오.
- Batch Processing: 특정 downstream 작업 흐름을 위해 추출 모드를 사용하십시오 (예 : OCR 사전 처리, 엔티 인식).
고급 추출을 위해 - 암호화 된 PDF를 처리하거나 텍스트 출력을 사용자 정의하는 것과 같은 - 공식 API 참조.
* 최고의 습관*
- 항상 출력 요구에 맞는 추출 모드를 선택하십시오 (포맷, 원료 또는 깨끗).
- 큰 문서 세트를 위해, 배치 프로세스는 통과량을 최대화하고 수동 노력을 최소화합니다.
- 테스트 추출 결과는 데이터의 정확성을 보장하기 위해 실제 PDF를 사용합니다.
관련 자원 :