Text Extractor Plugin cho Aspose.PDF
Aspose.PDF Text Extractor Plugin cho .NET cho phép các nhà phát triển để rút nội dung văn bản - cấu trúc, thẳng, hoặc như vậy - từ các tệp PDF. Với ba chế độ rút, nó là lý tưởng cho chuyển đổi tài liệu, khai thác dữ liệu , cải tiến khả năng truy cập, và nhiều hơn nữa.
Bài viết mới nhất
Aspose.PDF Text Extractor Plugin Chìa khóa tính năng
*Thể loại:Multiple Extraction ModesTiết xuất văn bản như tinh khiết (được định dạng), thô (như là), hoặc thẳng (tẩy sạch) cho sự linh hoạt tối đa.
Batch PDF xử lýThêm nhiều PDF cho việc khai thác đồng thời và dòng công việc nhanh chóng.
- Đơn giản .NET Integration*Straightforward API – thêm vào bất kỳ dự án C# hoặc .NET nào để triển khai nhanh chóng.
Bắt đầu với Aspose.PDF Text Extractor Plugin
Cài đặt Aspose.PDF cho .NETThêm thông qua NuGet hoặc tải xuống bộ sưu tập vào giải pháp .NET của bạn.
Cài đặt giấy phép của bạnHoạt động cho việc xử lý và hỗ trợ không giới hạn.
Cài đặt tùy chọn khai thácSử dụng
TextExtractor
vàTextExtractorOptions
Thiết lập chế độ chiết xuất theo mong muốn (Tin, Raw, Plain).Thử lý và khôi phục văn bảnChạy kết quả khai thác và truy cập thông qua bộ sưu tập container.
* Ví dụ: Tích xuất văn bản từ PDF (C#)**
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
* Ví dụ: Batch Extract Text from Multiple PDFs
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
* Sử dụng Cases & Extensions*
- PDF sang TXT Chuyển đổi: Tự động chuyển đổi PDF sang văn bản thẳng để chỉ mục, tìm kiếm hoặc lưu trữ.
- Data Mining: Thu thập dữ liệu bảng, hóa đơn hoặc biểu mẫu để xử lý hoặc phân tích thêm.
- Truy cập: * Chuẩn bị nội dung có thể đọc cho người đọc màn hình hoặc định dạng thay thế.
- Batch Processing: Sử dụng chế độ khai thác cho các dòng công việc dưới dạng cụ thể (ví dụ, OCR Pre-Processing, Entity Recognition).
Đối với chiết xuất tiên tiến – chẳng hạn như xử lý các PDF được mã hóa, hoặc tùy chỉnh kết quả văn bản – tham khảo tham chiếu API chính thức.
* Thực hành tốt nhất *
- Luôn chọn chế độ chiết xuất phù hợp với nhu cầu sản xuất của bạn (để định dạng, thô hoặc sạch).
- Đối với các tập tin tài liệu lớn, quá trình tập hợp để tối đa hóa công suất thông qua và giảm thiểu nỗ lực thủ công.
- Kết quả khai thác thử nghiệm với PDF thế giới thực để đảm bảo tính chính xác của dữ liệu.
Tài nguyên liên quan: