ASPOSE.OCRで本や多列文書をデジタル化する方法
ASPOSE.OCRで本や多列文書をデジタル化する方法
本や雑誌をスキャンしたり撮影したりすると、複雑で多列の画像が発生し、標準 OCR に挑戦します. .NET の Aspose.OCR は、図書館、研究、出版に最適な構造化されたコラムオーダーテキストを信頼性的に抽出するための高度な設定を提供します。
現実世界問題
書籍、新聞、ジャーナリズムはよくコラム、脚本、イラストを含むスキャンされた画像として保存されます. 手動で読みやすい、構造化されたテキストの抽出は遅く、エラーが原因で、図書館やアーカイブでは高価です。
ソリューション概要
Aspose.OCR for .NET は、複数のコラムおよび複雑な配置を処理し、読書の順序を維持して、本や雑誌の大規模なデジタル化を自動化させ、時間の節約と研究者や出版社のデータの正確性を向上させます。
原則
あなたが持っていることを確認してください:
- Visual Studio 2019 以降
- .NET 6.0 またはそれ以降(または .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET から NuGet
- 基本的なC#スキル
PM> Install-Package Aspose.OCR
ステップ・ステップ・実施
ステップ1:インストールおよび設定 Aspose.OCR
using Aspose.OCR;
ステップ2:本/雑誌ページをスキャンまたは撮影する
すべてのスキャンされたページ画像をバッチ認識の入力に追加します。
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
ステップ3:複数のコラム認証設定を設定する
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts
ステップ4:構造化された順序でテキストを抽出する
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
ステップ5:デジタルテキストを輸出または保存
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text); // Save as text
result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}
ステップ6:エラー処理と品質チェックを追加する
try
{
// OCR and export code
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
ステップ7:大規模または稀な本のための最適化
- バッチ すべての書籍ページをフォルダーで処理
- 珍しい本や古い本のための高レーススキャンを使用する
- 全コレクションを実行する前にサンプルページを確認する
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
input.Add(file);
}
ステップ8:完璧な例
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text);
result.Save("book_page.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
ケースとアプリケーションの使用
図書館とデジタル人類
稀な書籍や歴史新聞のデジタル融資、検索、分析を可能にします。
学術・研究出版社
電子アクセスのための雑誌、会議プロセス、またはテキストブックを簡単にデジタル化します。
多言語・複雑なレイアウト
外国語のコラム、サイドバー、または足跡を含む雑誌からコンテンツを抽出します。
共通の課題と解決策
課題1:コラムやイラストを除く
ソリューション: 高品質のスキャンを使用し、ドキュメント/AUTO モードをテストして、最良の読み手順を取得します。
課題2:古いまたは損傷した本のためのOKR品質
ソリューション: マッサージ処理前にスキャンを改善し、結果を確認します。
課題3:大規模デジタル化
ソリューション: バッチワークフローを自動化し、大規模な作業にエラー処理を使用します。
パフォーマンス考慮
- 良いソーススキャンを使用し、特に珍しい本や脆弱な本のために
- スケールのためのバッチプロセス
- デジタル出力を柔軟な形式で保存する(テキスト、Word、PDF)
ベストプラクティス
- 正確性のためのオリジナルのページに対する出力を確認する
- 簡単に取り戻すために、ボリュームと章によって本のページを整理する
- スキャンとデジタルテキストの両方をバックアップ
- OCRエンジンを最新の改善にアップデート
高度なシナリオ
シナリオ1:多言語雑誌のデジタル化
settings.Language = Language.German;
シナリオ2:電子書籍の読者向けのPDFへの輸出
foreach (RecognitionResult result in results)
{
result.Save("book_page.pdf", SaveFormat.Pdf);
}
結論
Aspose.OCR for .NET は、本や複雑な出版物をデジタル時代に導入する最速の方法であり、検索、分析、共有の準備が整っています。
追加の例と統合のヒントを参照 ASPOSE.OCR for .NET API リファレンス .