画像のテーブルやフォームから構造化されたデータを抽出する方法

画像のテーブルやフォームから構造化されたデータを抽出する方法

スキャンされたテーブルや満たされたフォームからデータを抽出することは、ビジネスの自動化、レポート、および遵守のために不可欠です. Aspose.OCR Table to Text for .NET は、このプロセスを簡素化し、細胞とフィールド構造を正確に検出して編集可能なフォーマットに輸出します。

現実世界問題

企業は頻繁に請求書、レポート、または画像やスキャンとしてフォームを受け取ります 表データやフォームフィールドの手動入力は、スケールで遅く、エラーが原因で、高価です。

ソリューション概要

.NET のテキスト タブレットを使用すると、画像から直接構造化されたデータ(行、列、フィールド 値を含む)を抽出できます。

原則

  • Visual Studio 2019 以降
  • .NET 6.0 またはそれ以降(または .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET から NuGet
  • 基本的なC#スキル
PM> Install-Package Aspose.OCR

ステップ・ステップ・実施

ステップ1:インストールおよび設定 Aspose.OCR

using Aspose.OCR;

ステップ2:テーブルまたはフォーム画像の準備

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

ステップ3:表/フォームの認識設定を設定する

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

ステップ4:表またはフォームデータを抽出する

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

ステップ5:構造化された輸出

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

ステップ6:エラーに対処し、結果を確認する

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

ステップ7:表/形状変数の最適化

  • 異なる境界、文字、またはフィールドプラセメントを持つサンプルでのテスト
  • 最良の検出のためのトゥーンプレプロセッサ設定

ステップ8:自動バッチ抽出

すべての関連する画像をフォルダーで処理する:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

ステップ9:完璧な例

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

ケースとアプリケーションの使用

会計・報告自動化

会計や分析のための財務データを抽出する。

調査・登録フォーム

CRM、ERP、またはBIシステムのための構造化された応答を充電します。

遵守と監査

提出されたフォームまたはテーブルからのデータの自動抽出および認証。

共通の課題と解決策

課題1:不規則なテーブル・レイアウト

ソリューション: 検出を改善するために事前処理およびサンプルトゥニングを使用します。

課題2:混合コンテンツ(テキストとテーブル)

ソリューション: AUTO で実行するか、最良の結果を得るために画像タイプによって分離します。

課題3:複雑な形状と複数のフィールド

ソリューション: 高密度の形状のテストおよびツイック認識。

パフォーマンス考慮

  • テーブル認識はよりCPU強度; モニターバッチワーク
  • 重要な作業の流れへの出力認証
  • 他のツールとの統合のためのバッチエクスポート

ベストプラクティス

  • スケールする前にサンプルで構造化されたデータを確認する
  • セキュア・アーカイブ ソース画像と抽出された出力の両方
  • Aspose.OCR を定期的に更新して、正確性の向上
  • Tune Settings for New ドキュメント レイアウト

高度なシナリオ

シナリオ1:データベースまたはBIツールへの輸出

// Use JSON or Excel export for integration with data pipelines

シナリオ2:Webアプリでリアルタイムエクストラクション

// Integrate extraction logic into ASP.NET or workflow API

結論

Aspose.OCR Table to Text for .NET は、ビジネス自動化から遵守と分析に至るまで、すべてをサポートする画像やフォームから構造化されたデータ抽出を自動的にできるようにします。

高度なテーブル抽出機能については、参照してください。 ASPOSE.OCR for .NET API リファレンス .

 日本語