文本提取器插件为 Aspose.PDF

Aspose.PDF Text Extractor Plugin for .NET 允许开发人员从文本内容(结构化、平面或类似)中提取 PDF 有三种提取模式,它非常适合文档转换、数据挖掘、可访问性改进等.

最新文章

Aspose.PDF 文本提取器插件关键功能

  • 多种抽取模式将文本提取为纯(格式化),原料(如)或平(清)以获得最大灵活性.

  • Batch PDF 处理添加多个 PDF 为同时提取和简化工作流.

  • 簡單的 .NET 整合Straightforward API - 添加到任何 C# 或 .NET 项目,以便快速部署.

開始使用 Aspose.PDF 文本提取器插件

  • 安装 Aspose.PDF 为 .NET通过 NuGet 添加或下载集成到您的 .NET 解决方案.

  • 设置您的许可证可用于无限处理和支持.

  • 配置提取选项使用 TextExtractorTextExtractorOptions 按所需的提取模式设置(清洁、原料、平板).

  • 过程和恢复文本通过结果集装箱收集进行提取和访问结果.

例子:从PDF中提取文本(C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

示例:从多个 PDF 提取文本

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

使用案例和扩展

  • PDF 到 TXT 转换: 将 PDF 自动转化为清晰的文本,用于索引、搜索或档案.
  • 数据挖掘: 提取表数据、发票或表格进行进一步处理或分析.
  • 可用性: 为屏幕阅读器或替代格式准备可读的内容.
  • Batch Processing: 用于特定下流工作流的提取模式(例如,OCR预处理,实体识别).

对于先进的提取,如处理加密的PDF或自定义文本输出,请参阅官方API参考.

最佳做法

  • 始终选择符合您的输出需求的提取模式(格式化、原料或清洁).
  • 对于大型文件集,包装过程以最大限度地通过输入,并尽量减少手动努力.
  • 测试提取结果与现实世界的PDF以确保数据的准确性.

相关资源:

 中文