如何通过 Aspose.OCR 数字化书籍和多列文档
如何通过 Aspose.OCR 数字化书籍和多列文档
扫描或拍摄书籍和杂志往往会导致复杂的多列图像 - 挑战标准 OCR. Aspose.OCR for .NET 提供先进的设置,可可靠地提取结构化、列订单的文本,适合图书馆、研究和出版。
现实世界问题
书籍、报纸和杂志经常被保存为扫描图像,包含列、脚印和图标。 手动提取可读、结构化文本是缓慢、错误的,对于图书馆或档案来说是昂贵的。
解决方案概述
Aspose.OCR for .NET 处理多列和复杂的布局,保持阅读顺序,让您自动大规模数字化书籍和杂志,节省时间,提高研究人员和出版商的数据准确性。
原則
确保你有:
- Visual Studio 2019 或以后
- .NET 6.0 或更高版本(或 .Net Framework 4.6.2+)
- Aspose.OCR 为 .NET 从 NuGet
- 基本的C#技能
PM> Install-Package Aspose.OCR
步骤实施
步骤 1: 安装和设置 Aspose.OCR
using Aspose.OCR;
步骤2:扫描或拍摄您的书/杂志页面
将所有扫描的页面图像添加到您的输入中,以便进行集合识别。
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
步骤3:设置多列识别设置
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts
步骤4:以结构性顺序提取文本
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
步骤5:输出或保存数字化文本
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text); // Save as text
result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}
步骤6:添加错误处理和质量检查
try
{
// OCR and export code
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
步骤7:为大批或罕见的书籍优化
- Batch 在文件夹中处理所有书页
- 使用高清扫描对于罕见或旧的书籍
- 在运行整个收藏之前验证样本页面
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
input.Add(file);
}
步骤8:完整的例子
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text);
result.Save("book_page.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
使用案例和应用程序
图书馆与数字人文
允许数字贷款,搜索和分析罕见的书籍和历史报纸。
学术和研究出版物
轻松数字化杂志、会议程序或文本书,以便电子访问。
多语言和复杂的布局
从杂志中提取内容,包含外语列、页面板或脚本。
共同挑战与解决方案
挑战1:无列或图像
**解决方案:**使用高品质的扫描,并测试DOCUMENT/AUTO模式,以获得最佳阅读顺序。
挑战2:旧或损坏的书籍的OKR质量
** 解决方案:** 在大规模处理之前,改进扫描和验证结果。
挑战3:大规模数字化
** 解决方案:** 自动收集工作流,并用于大规模操作的错误处理。
绩效考虑
- 使用良好的源扫描,特别是对于罕见或脆弱的书籍
- 尺寸的Batch过程
- 以灵活格式存储数字化输出(文本、Word、PDF)
最佳实践
- 对原始页面的输出验证准确性
- 按卷和章节安排书页,以便轻松获取
- 备份扫描和数字化文本
- 更新 OCR 引擎最新改进
先进的场景
剧本1:数字化多语言杂志
settings.Language = Language.German;
剧本2:向电子书读者出口到PDF
foreach (RecognitionResult result in results)
{
result.Save("book_page.pdf", SaveFormat.Pdf);
}
结论
Aspose.OCR for .NET 是将书籍和复杂出版物带入数字时代的最快方式,准备好搜索、分析和共享。
查看更多例子和集成提示 ASPOSE.OCR 为 .NET API 参考 .