How to Extract Text Scanned Pdfs Dotnet Aspose
扫描的 PDF 通常难以处理,因为它们本质上只是文本的图像。将这些图像转换为可搜索、可编辑的文本文件为文档管理和内容可访问性打开了无限可能。使用 Aspose.OCR for .NET,您可以将扫描的 PDF 转换为完全可搜索的文档,同时保留原始图像。
为什么 OCR(光学字符识别)对扫描的 PDF 重要
- 数据提取:
- OCR 让您将扫描的文本转换为机器可读的数据,这些数据可以被编辑和索引。
- 可搜索性:
- 通过将扫描的 PDF 转换为可搜索的文档,您可以快速找到相关信息,而无需手动浏览页面。
- 提高生产力:
- 通过自动化将扫描文档转换为可编辑格式(如 Word 或 Excel),节省时间。
前提条件:设置扫描 PDF 文本提取
在开始从扫描的 PDF 中提取文本之前,请确保完成以下步骤:
- 安装 Aspose.OCR for .NET:
- 使用 NuGet 将 Aspose.OCR 添加到您的项目中:
dotnet add package Aspose.OCR
- 使用 NuGet 将 Aspose.OCR 添加到您的项目中:
- 获取计量许可证:
- 设置您的计量许可证,以解锁 Aspose.OCR 库的所有功能,使用
SetMeteredKey()
。
- 设置您的计量许可证,以解锁 Aspose.OCR 库的所有功能,使用
- 准备您的扫描 PDF:
- 确保您的扫描 PDF 质量高。更好的质量会带来更准确的 OCR。
分步指南:从扫描 PDF 中提取文本
步骤 1:安装所需的库
首先将 Aspose.OCR for .NET 安装到您的项目中。您可以直接从 NuGet 进行此操作。
dotnet add package Aspose.OCR
步骤 2:设置您的许可证密钥
在继续之前,配置您的 Aspose.OCR 许可证以解锁所有功能。
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("许可证配置成功。");
步骤 3:将扫描的 PDF 加载到 OCR 输入对象中
您需要将扫描的 PDF 加载到 OcrInput
对象中。Aspose.OCR 支持扫描 PDF 的多个页面。
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // 处理 PDF 的前 3 页
Console.WriteLine("扫描的 PDF 加载成功。");
步骤 4:使用 OCR 引擎处理扫描的 PDF
加载 PDF 后,将其传递给 Aspose OCR 引擎进行识别。
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // 设置 OCR 语言(例如,英语的拉丁语)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("从 PDF 中提取的文本。");
步骤 5:输出识别的文本或保存它
一旦 OCR 引擎处理完 PDF,您可以直接输出识别的文本或将其保存到文件中。
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"识别的文本:{recognizedText}");
// 将结果保存到文本文件
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("识别的文本已保存到 output.txt。");
步骤 6:测试和优化 OCR 结果
提取文本后,测试输出的准确性。如有必要,您可以调整 OCR 设置,以改善不同文档布局的结果。
常见问题及解决方案
1. OCR 准确性差
- 解决方案:确保扫描的 PDF 质量高。使用高分辨率扫描以提高识别准确性。
2. 不支持的字体
- 解决方案:在 OCR 选项中提供正确的语言设置,以增强对非拉丁字符的识别。
3. 性能慢
- 解决方案:将 PDF 拆分为较小的块或页面,以加快处理速度,特别是对于大型文档。