如何在 .NET 中种植扫描文件的 OCR

如何在 .NET 中种植扫描文件的 OCR

在为 光学字符识别(OCR) 编制扫描文件时,重要的是将图像集中在文本重的区域上。 扫描文档的无关部分确保 OCR 软件能够更准确、更高效地提取文本。 Aspose.Imaging for .NET 提供扫描文档的必要工具,并为 OCR 处理做好准备。

克罗普扫描文件对OCR的好处

  • 提高准确性:- 将OCR的努力集中在相关的文本部分上,避免噪音或不相关的内容。

  • 减少处理时间:- 种植图像以尽量减少要处理的区域,加速OCR过程。

  • 更好的文本提取:- 确保文本适当调整和为OCR发动机做好框架。

首頁 〉外文書 〉西洋文學 〉Setting Up Aspose.Imaging

  • 安装 The 网 SDK 在你的系统上。
  • 添加 Aspose.Imaging 到您的项目: dotnet add package Aspose.Imaging
  • 获得测量许可证并使用它设置 SetMeteredKey().

步骤指南 种植扫描文件为OCR

步骤1:设置测量许可证

设置 Aspose.Imaging 为无限访问挖掘功能。

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

步骤2:下载扫描文档图像

加载扫描的文件文件文件,需要收集为OCR准备。

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

步骤3:定义种植区域

指定需要提取的文本周围的直角区域。

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

步骤4:应用种植操作

使用 The Crop() 方法从图像中提取所需的文本部分。

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

步骤5:保存图像

保存收集的图像为OCR处理。

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

部署和使用

  • 文件处理系统:- 在自动文档扫描系统中实施挖掘,以准备图像为OCR。

  • OCR工作流集成:- 收获文件之前将其转移到OCR发动机,以便更快、更准确的文本提取。

  • 输出验证:- 打开积累的图像,以确保文本是清晰可见的,并正确的框架。

现实世界应用

  • 法律和医疗文件扫描:- 种植扫描合同或医疗记录,以专注于对OCR处理的重要文本。

  • 存档系统:- 为文本提取和数字化准备历史文件。

  • 电子政府服务:- 自动从扫描表格或应用程序中提取文本。

常见问题和解决方案

  • 不正确的种植区域:- 确保其 Rectangle 协调与部分与文本相匹配。

  • 低品质图像:- 确保扫描图像具有足够高的分辨率,以确保OCR准确性。

  • 文件许可证:- 检查输出目录有适当的写作许可。

结论

使用 Aspose.Imaging for .NET,您可以轻松地收集扫描文件,专注于OCR处理的重要部分,提高准确性和效率。

 中文