文本提取器插件为 Aspose.PDF

Aspose.PDF Text Extractor Plugin for .NET 允许开发人员从 PDF 文件中提取文本内容 - 结构化、平面或类似。

最新文章

Aspose.PDF 文本提取器插件关键功能

  • 多种抽取模式将文本提取为纯(格式化),原料(如)或平(清)以获得最大灵活性。

  • Batch PDF 处理添加多个 PDF 为同时提取和简化工作流。

    • 簡單的 .NET 整合*Straightforward API - 添加到任何 C# 或 .NET 项目,以便快速部署。

** 開始使用 Aspose.PDF 文本提取器插件**

  • 安装 Aspose.PDF 为 .NET通过 NuGet 添加或下载集成到您的 .NET 解决方案。

  • ** 设置您的许可证**可用于无限处理和支持。

  • ** 配置提取选项**使用 TextExtractorTextExtractorOptions 按所需的提取模式设置(清洁、原料、平板)。

  • ** 过程和恢复文本**通过结果集装箱收集进行提取和访问结果。

** 例子:从PDF中提取文本(C#)**

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

** 示例:从多个 PDF 提取文本**

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

** 使用案例和扩展*

  • PDF 到 TXT 转换: 将 PDF 自动转化为清晰的文本,用于索引、搜索或档案。
  • 数据挖掘: 提取表数据、发票或表格进行进一步处理或分析。
  • 可用性: 为屏幕阅读器或替代格式准备可读的内容。
  • Batch Processing: 用于特定下流工作流的提取模式(例如,OCR预处理,实体识别)。

对于先进的提取,如处理加密的PDF或自定义文本输出,请参阅官方API参考。

* 最佳做法*

  • 始终选择符合您的输出需求的提取模式(格式化、原料或清洁)。
  • 对于大型文件集,包装过程以最大限度地通过输入,并尽量减少手动努力。
  • 测试提取结果与现实世界的PDF以确保数据的准确性。

相关资源:

 中文