如何在 .NET 中种植扫描文件的 OCR

在为 Optical Character Recognition (OCR) 编制扫描文档时,必须将图像集中在文本重的区域上,并将文件的无关部分切割确保 OCR 软件能够更准确、更高效地提取文献.

克罗普扫描文件对OCR的好处

提高准确性:- 将OCR的努力集中在相关的文本部分上,避免噪音或不相关的内容.
减少处理时间:- 种植图像以尽量减少要处理的区域,加速OCR过程.
更好的文本提取:- 确保文本适当调整和为OCR发动机做好框架.

首頁〉外文書〉西洋文學〉Setting Up Aspose.Imaging

安装 The .网 SDK 在你的系统上.
添加 Aspose.Imaging 到您的项目: dotnet add package Aspose.Imaging
获得测量许可证并使用它设置 SetMeteredKey().

步骤指南种植扫描文件为OCR

步骤1:设置测量许可证

设置 Aspose.Imaging 为无限访问挖掘功能.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

步骤2:下载扫描文档图像

加载扫描的文件文件文件,需要收集为OCR准备.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

步骤3:定义种植区域

指定需要提取的文本周围的直角区域.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

步骤4:应用种植操作

使用 The Crop() 方法从图像中提取所需的文本部分.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

步骤5:保存图像

保存收集的图像为OCR处理.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

部署和使用

文件处理系统:- 在自动文档扫描系统中实施挖掘,以准备图像为OCR.
OCR工作流集成:- 收获文件之前将其转移到OCR发动机,以便更快、更准确的文本提取.
输出验证:- 打开积累的图像,以确保文本是清晰可见的,并正确的框架.

现实世界应用

法律和医疗文件扫描:- 种植扫描合同或医疗记录,以专注于对OCR处理的重要文本.
存档系统:- 为文本提取和数字化准备历史文件.
电子政府服务:- 自动从扫描表格或应用程序中提取文本.

常见问题和解决方案

不正确的种植区域:- 确保其 Rectangle 协调与部分与文本相匹配.
低品质图像:- 确保扫描图像具有足够高的分辨率,以确保OCR准确性.
文件许可证:- 检查输出目录有适当的写作许可.

结论

使用 Aspose.Imaging for .NET,您可以轻松地收集扫描文件,专注于OCR处理的重要部分,提高准确性和效率.