Text Extractor Plugin cho Aspose.PDF

Aspose.PDF Text Extractor Plugin cho .NET cho phép các nhà phát triển khai thác nội dung văn bản - cấu trúc, thẳng, hoặc như vậy - từ PDF Với ba chế độ chiết xuất, nó là lý tưởng cho chuyển đổi tài liệu, khai thác data, cải tiến khả năng truy cập, và nhiều hơn nữa.

Bài viết mới nhất

Aspose.PDF Text Extractor Plugin Chìa khóa tính năng

  • Thể loại:Multiple Extraction ModesTiết xuất văn bản như tinh khiết (được định dạng), thô (như là), hoặc thẳng (tẩy sạch) cho sự linh hoạt tối đa.

  • Batch PDF xử lýThêm nhiều PDF cho việc khai thác đồng thời và dòng công việc nhanh chóng.

  • Đơn giản .NET IntegrationStraightforward API – thêm vào bất kỳ dự án C# hoặc .NET nào để triển khai nhanh chóng.

Bắt đầu với Aspose.PDF Text Extractor Plugin

  • Cài đặt Aspose.PDF cho .NETThêm thông qua NuGet hoặc tải xuống bộ sưu tập vào giải pháp .NET của bạn.

  • Cài đặt giấy phép của bạnHoạt động cho việc xử lý và hỗ trợ không giới hạn.

  • Cài đặt tùy chọn khai thácSử dụng TextExtractorTextExtractorOptions Thiết lập chế độ chiết xuất theo mong muốn (Tin, Raw, Plain).

  • Thử lý và khôi phục văn bảnChạy kết quả khai thác và truy cập thông qua bộ sưu tập container.

Ví dụ: Tích xuất văn bản từ PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Ví dụ: Batch Extract Text from Multiple PDFs

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Sử dụng Cases & Extensions

  • PDF sang TXT Chuyển đổi: Tự động chuyển đổi PDF sang văn bản thẳng để chỉ mục, tìm kiếm hoặc lưu trữ.
  • Data Mining: Thu thập dữ liệu bảng, hóa đơn hoặc biểu mẫu để xử lý hoặc phân tích thêm.
  • Truy cập: Chuẩn bị nội dung có thể đọc cho người đọc màn hình hoặc định dạng thay thế.
  • Batch Processing: Sử dụng chế độ khai thác cho các dòng công việc dưới dạng cụ thể (ví dụ, OCR Pre-Processing, Entity Recognition).

Đối với chiết xuất tiên tiến – chẳng hạn như xử lý các PDF được mã hóa, hoặc tùy chỉnh kết quả văn bản – tham khảo tham chiếu API chính thức.

Thực hành tốt nhất

  • Luôn chọn chế độ chiết xuất phù hợp với nhu cầu sản xuất của bạn (để định dạng, thô hoặc sạch).
  • Đối với các tập tin tài liệu lớn, quá trình tập hợp để tối đa hóa công suất thông qua và giảm thiểu nỗ lực thủ công.
  • Kết quả khai thác thử nghiệm với PDF thế giới thực để đảm bảo tính chính xác của dữ liệu.

Tài nguyên liên quan:

 Tiếng Việt