文本提取器插件为 Aspose.PDF
Aspose.PDF Text Extractor Plugin for .NET 允许开发人员从文本内容(结构化、平面或类似)中提取 PDF 有三种提取模式,它非常适合文档转换、数据挖掘、可访问性改进等.
最新文章
Aspose.PDF 文本提取器插件关键功能
多种抽取模式将文本提取为纯(格式化),原料(如)或平(清)以获得最大灵活性.
Batch PDF 处理添加多个 PDF 为同时提取和简化工作流.
簡單的 .NET 整合Straightforward API - 添加到任何 C# 或 .NET 项目,以便快速部署.
開始使用 Aspose.PDF 文本提取器插件
安装 Aspose.PDF 为 .NET通过 NuGet 添加或下载集成到您的 .NET 解决方案.
设置您的许可证可用于无限处理和支持.
配置提取选项使用
TextExtractor
和TextExtractorOptions
按所需的提取模式设置(清洁、原料、平板).过程和恢复文本通过结果集装箱收集进行提取和访问结果.
例子:从PDF中提取文本(C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
示例:从多个 PDF 提取文本
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
使用案例和扩展
- PDF 到 TXT 转换: 将 PDF 自动转化为清晰的文本,用于索引、搜索或档案.
- 数据挖掘: 提取表数据、发票或表格进行进一步处理或分析.
- 可用性: 为屏幕阅读器或替代格式准备可读的内容.
- Batch Processing: 用于特定下流工作流的提取模式(例如,OCR预处理,实体识别).
对于先进的提取,如处理加密的PDF或自定义文本输出,请参阅官方API参考.
最佳做法
- 始终选择符合您的输出需求的提取模式(格式化、原料或清洁).
- 对于大型文件集,包装过程以最大限度地通过输入,并尽量减少手动努力.
- 测试提取结果与现实世界的PDF以确保数据的准确性.
相关资源: