如何使用 .NET 使用 Deskew 为 OCR 编写扫描图像
如何使用 .NET 使用 Deskew 为 OCR 编写扫描图像
精确的OCR(光学字符识别)以完美调整的图像开始。 折叠或旋转的扫描会降低OKR的准确性,因此,切割是关键的预处理步骤. Aspose.Imaging for .NET 允许您在任何外部OCr工具中拍摄最佳结果的文档/照片。
现实世界问题
OCR 发动机在精心调整的图像上工作,可折叠的扫描会导致错过的字符或文本错误,手动粘贴太慢了大片。
解决方案概述
使用 Aspose.Imaging 为 .NET 自动解除扫描图像. 保存它们在无损格式,如 PNG 或 TIFF,准备进口到您的 OCR 软件的选择(Asposa.OCR, Tesseract 等)。
原則
- Visual Studio 2019 或以后
- .NET 6.0 或更高版本(或 .Net Framework 4.6.2+)
- Aspose.Imaging for .NET 来自 NuGet
- 扫描文件或图像(JPEG、PNG、TIFF等)
PM> Install-Package Aspose.Imaging
步骤实施
步骤1:解除扫描图像
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
步骤2:将虚拟图像转移到任何 OCR 引擎
- 使用您最喜欢的 OCR 工具来识别图像中的文本。
- 例子:进口
scan_for_ocr_deskewed.png
进入您的 OCR 管道或软件(Aspose.OCR、Tesseract、ABBYY 等)。
步骤3:审查和修复
- 检查 OCR 结果 如果准确度低,调整地板/背景设置或扫描质量。
- 考虑对所有新扫描进行包处理,以保持您的数字化工作流高效。
使用案例和应用程序
- 数字化档案、收件、合同或可搜索文本的表格
- 准备商业文件遵守和审计
- 提高任何OCR或文档自动化管道的准确性
共同挑战与解决方案
** 折叠图像仍然会导致 OCR 错误:** 尝试不同的背景颜色,预过滤噪音或高分辨率扫描。
输出文件太大: 如果需要透明度,使用 TIFF 与压缩,或 PNG。
** 图像格式混合:** 在 OCR 之前,将所有扫描都正常化为无损形式。
最佳实践
- 始终使用无损图像格式为OCR
- 保持原创和处理的图像为参考
- 文档您的桌面和数字化工作流为团队
FAQ
**Q:我可以把所有图像都放在一个文件夹中吗?**答:是的,把这个代码放在所有文件上,如前一组示例所示。
**Q:哪种背景颜色最适合OCR?**答:白色是最安全的文本;使用透明的图形,或匹配您的文档。
**Q:在关闭后压缩文件是好的吗?**答:使用无损压缩,以避免降低OCR准确度的物品。
结论
使用 Aspose.Imaging for .NET 是可靠的 OCR、数字化和商业自动化必需品。 保持您的管道清洁、快速、准确! 更多信息,请参阅 Aspose.Imaging 为 .NET API 参考 .