ASPOSE.OCRで本や多列文書をデジタル化する方法

ASPOSE.OCRで本や多列文書をデジタル化する方法

本や雑誌をスキャンしたり撮影したりすると、複雑で多列の画像が発生し、標準 OCR に挑戦します. .NET の Aspose.OCR は、図書館、研究、出版に最適な構造化されたコラムオーダーテキストを信頼性的に抽出するための高度な設定を提供します。

現実世界問題

書籍、新聞、ジャーナリズムはよくコラム、脚本、イラストを含むスキャンされた画像として保存されます. 手動で読みやすい、構造化されたテキストの抽出は遅く、エラーが原因で、図書館やアーカイブでは高価です。

ソリューション概要

Aspose.OCR for .NET は、複数のコラムおよび複雑な配置を処理し、読書の順序を維持して、本や雑誌の大規模なデジタル化を自動化させ、時間の節約と研究者や出版社のデータの正確性を向上させます。

原則

あなたが持っていることを確認してください:

  • Visual Studio 2019 以降
  • .NET 6.0 またはそれ以降(または .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET から NuGet
  • 基本的なC#スキル
PM> Install-Package Aspose.OCR

ステップ・ステップ・実施

ステップ1:インストールおよび設定 Aspose.OCR

using Aspose.OCR;

ステップ2:本/雑誌ページをスキャンまたは撮影する

すべてのスキャンされたページ画像をバッチ認識の入力に追加します。

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

ステップ3:複数のコラム認証設定を設定する

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

ステップ4:構造化された順序でテキストを抽出する

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

ステップ5:デジタルテキストを輸出または保存

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

ステップ6:エラー処理と品質チェックを追加する

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

ステップ7:大規模または稀な本のための最適化

  • バッチ すべての書籍ページをフォルダーで処理
  • 珍しい本や古い本のための高レーススキャンを使用する
  • 全コレクションを実行する前にサンプルページを確認する
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

ステップ8:完璧な例

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

ケースとアプリケーションの使用

図書館とデジタル人類

稀な書籍や歴史新聞のデジタル融資、検索、分析を可能にします。

学術・研究出版社

電子アクセスのための雑誌、会議プロセス、またはテキストブックを簡単にデジタル化します。

多言語・複雑なレイアウト

外国語のコラム、サイドバー、または足跡を含む雑誌からコンテンツを抽出します。

共通の課題と解決策

課題1:コラムやイラストを除く

ソリューション: 高品質のスキャンを使用し、ドキュメント/AUTO モードをテストして、最良の読み手順を取得します。

課題2:古いまたは損傷した本のためのOKR品質

ソリューション: マッサージ処理前にスキャンを改善し、結果を確認します。

課題3:大規模デジタル化

ソリューション: バッチワークフローを自動化し、大規模な作業にエラー処理を使用します。

パフォーマンス考慮

  • 良いソーススキャンを使用し、特に珍しい本や脆弱な本のために
  • スケールのためのバッチプロセス
  • デジタル出力を柔軟な形式で保存する(テキスト、Word、PDF)

ベストプラクティス

  • 正確性のためのオリジナルのページに対する出力を確認する
  • 簡単に取り戻すために、ボリュームと章によって本のページを整理する
  • スキャンとデジタルテキストの両方をバックアップ
  • OCRエンジンを最新の改善にアップデート

高度なシナリオ

シナリオ1:多言語雑誌のデジタル化

settings.Language = Language.German;

シナリオ2:電子書籍の読者向けのPDFへの輸出

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

結論

Aspose.OCR for .NET は、本や複雑な出版物をデジタル時代に導入する最速の方法であり、検索、分析、共有の準備が整っています。

追加の例と統合のヒントを参照 ASPOSE.OCR for .NET API リファレンス .

 日本語