文本提取器插件为 Aspose.PDF
Aspose.PDF Text Extractor Plugin for .NET 允许开发人员从 PDF 文件中提取文本内容 - 结构化、平面或类似。
最新文章
Aspose.PDF 文本提取器插件关键功能
多种抽取模式将文本提取为纯(格式化),原料(如)或平(清)以获得最大灵活性。
Batch PDF 处理添加多个 PDF 为同时提取和简化工作流。
- 簡單的 .NET 整合*Straightforward API - 添加到任何 C# 或 .NET 项目,以便快速部署。
** 開始使用 Aspose.PDF 文本提取器插件**
安装 Aspose.PDF 为 .NET通过 NuGet 添加或下载集成到您的 .NET 解决方案。
** 设置您的许可证**可用于无限处理和支持。
** 配置提取选项**使用
TextExtractor
和TextExtractorOptions
按所需的提取模式设置(清洁、原料、平板)。** 过程和恢复文本**通过结果集装箱收集进行提取和访问结果。
** 例子:从PDF中提取文本(C#)**
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
** 示例:从多个 PDF 提取文本**
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
** 使用案例和扩展*
- PDF 到 TXT 转换: 将 PDF 自动转化为清晰的文本,用于索引、搜索或档案。
- 数据挖掘: 提取表数据、发票或表格进行进一步处理或分析。
- 可用性: 为屏幕阅读器或替代格式准备可读的内容。
- Batch Processing: 用于特定下流工作流的提取模式(例如,OCR预处理,实体识别)。
对于先进的提取,如处理加密的PDF或自定义文本输出,请参阅官方API参考。
* 最佳做法*
- 始终选择符合您的输出需求的提取模式(格式化、原料或清洁)。
- 对于大型文件集,包装过程以最大限度地通过输入,并尽量减少手动努力。
- 测试提取结果与现实世界的PDF以确保数据的准确性。
相关资源: