Aspose.OCRでスキャンされた画像からテキストを抽出する方法

Aspose.OCRでスキャンされた画像からテキストを抽出する方法

Aspose.OCR Scan to Text for .NET は、スキャンされたドキュメントや写真から構造化された、検索可能なテキストの抽出を自動化し、手動入力の数え切れない時間を節約します。

現実世界問題

紙文書、書籍、およびアーカイブは、画像として頻繁に保存されます. デジタルワークフロー、遵守、または研究のためにコンテンツを抽出することは、手動で行われる場合、遅く、高価であり、エラーの可能性があります。

ソリューション概要

Aspose.OCR Scan to Text for .NET は、印刷されたページの画像を使用可能なテキストに変換し、単列、複数のコラム、および複雑な配置を処理します。

原則

あなたが持っていることを保証する:

  • Visual Studio 2019 以降
  • .NET 6.0 またはそれ以降(または .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET から NuGet
  • 基本的なC#知識
PM> Install-Package Aspose.OCR

ステップ・ステップ・実施

ステップ1:インストールおよび設定 Aspose.OCR

NuGet パッケージと参照 Aspose.OCR を追加する:

using Aspose.OCR;

ステップ2:スキャンされた画像を追加する

処理するための単一または複数の画像ファイルをアップロードします。

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

ステップ3:認識設定を設定する

必要に応じてドキュメント言語とレイアウトをタウンします。

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

ステップ4:認定プロセスを実行

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

ステップ5:抽出されたテキストを保存または処理する

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

ステップ6:エラー処理を追加する

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

ステップ7:ドキュメントレイアウトの最適化

  • 書籍や記事には、DetekTreeMode.DOCUMENT を使用して、あるいは DetetekAreas.AUTO を試してみてください。
  • 最良の正確さのために事前処理画像(収穫、デッキ)
  • 大きなアーカイブのためのバッチプロセス
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

ステップ8:完璧な例

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

ケースとアプリケーションの使用

契約と契約のデジタル化

検索、アーカイブ、デジタルワークフローのための法的またはビジネス文書を迅速に数値化します。

書籍・アーカイブ処理

書籍ページや歴史記録を検索可能で編集可能なフォーマットに変換する。

コンプライアンスとデータ抽出

自動遵守チェック、監査、または遺産文書からのテキスト抽出を可能にします。

共通の課題と解決策

課題1:低品質のスキャンまたはフードテキスト

ソリューション: より正確な OCR を提供するために、事前処理または画像の強化を使用します。

チャレンジ2:複合または多列のレイアウト

ソリューション: DetectAreasMode を調整し、最適なレイアウト処理をテストします。

チャレンジ3:バッチデジタル化

**ソリューション:**大規模な仕事のためのバッチ処理およびリソース管理を使用します。

パフォーマンス考慮

  • スピードとスケール性のためのバッチプロセス
  • 良い品質のソース画像を使用する
  • 使用後のOCRオブジェクトの配置

ベストプラクティス

  • 自動化またはアーカイブの前に常に抽出されたテキストを確認する
  • ドキュメントタイプの正しい認識設定を使用する
  • 参照のためのオリジナルのスキャンをバックアップ
  • 生産前にサンプルバッチでOCR検査結果

高度なシナリオ

シナリオ1:多言語文書抽出

settings.Language = Language.French;

シナリオ2:統合のためのJSONへの輸出

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

結論

Aspose.OCR Scan to Text for .NET は、スキャンされた画像や紙文書を使用可能で編集可能なテキストに変換する最速の方法であり、法律、学術、または企業プロジェクトに最適です。

詳細やテクニカル情報はこちらをご覧ください。 ASPOSE.OCR for .NET API リファレンス .

 日本語