如何通过 Aspose.OCR 数字化书籍和多列文档

如何通过 Aspose.OCR 数字化书籍和多列文档

扫描或拍摄书籍和杂志往往会导致复杂的多列图像 - 挑战标准 OCR. Aspose.OCR for .NET 提供先进的设置,可可靠地提取结构化、列订单的文本,适合图书馆、研究和出版。

现实世界问题

书籍、报纸和杂志经常被保存为扫描图像,包含列、脚印和图标。 手动提取可读、结构化文本是缓慢、错误的,对于图书馆或档案来说是昂贵的。

解决方案概述

Aspose.OCR for .NET 处理多列和复杂的布局,保持阅读顺序,让您自动大规模数字化书籍和杂志,节省时间,提高研究人员和出版商的数据准确性。

原則

确保你有:

  • Visual Studio 2019 或以后
  • .NET 6.0 或更高版本(或 .Net Framework 4.6.2+)
  • Aspose.OCR 为 .NET 从 NuGet
  • 基本的C#技能
PM> Install-Package Aspose.OCR

步骤实施

步骤 1: 安装和设置 Aspose.OCR

using Aspose.OCR;

步骤2:扫描或拍摄您的书/杂志页面

将所有扫描的页面图像添加到您的输入中,以便进行集合识别。

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

步骤3:设置多列识别设置

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

步骤4:以结构性顺序提取文本

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

步骤5:输出或保存数字化文本

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

步骤6:添加错误处理和质量检查

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

步骤7:为大批或罕见的书籍优化

  • Batch 在文件夹中处理所有书页
  • 使用高清扫描对于罕见或旧的书籍
  • 在运行整个收藏之前验证样本页面
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

步骤8:完整的例子

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

使用案例和应用程序

图书馆与数字人文

允许数字贷款,搜索和分析罕见的书籍和历史报纸。

学术和研究出版物

轻松数字化杂志、会议程序或文本书,以便电子访问。

多语言和复杂的布局

从杂志中提取内容,包含外语列、页面板或脚本。

共同挑战与解决方案

挑战1:无列或图像

**解决方案:**使用高品质的扫描,并测试DOCUMENT/AUTO模式,以获得最佳阅读顺序。

挑战2:旧或损坏的书籍的OKR质量

** 解决方案:** 在大规模处理之前,改进扫描和验证结果。

挑战3:大规模数字化

** 解决方案:** 自动收集工作流,并用于大规模操作的错误处理。

绩效考虑

  • 使用良好的源扫描,特别是对于罕见或脆弱的书籍
  • 尺寸的Batch过程
  • 以灵活格式存储数字化输出(文本、Word、PDF)

最佳实践

  • 对原始页面的输出验证准确性
  • 按卷和章节安排书页,以便轻松获取
  • 备份扫描和数字化文本
  • 更新 OCR 引擎最新改进

先进的场景

剧本1:数字化多语言杂志

settings.Language = Language.German;

剧本2:向电子书读者出口到PDF

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

结论

Aspose.OCR for .NET 是将书籍和复杂出版物带入数字时代的最快方式,准备好搜索、分析和共享。

查看更多例子和集成提示 ASPOSE.OCR 为 .NET API 参考 .

 中文