.NET を使用して Deskew で OCR にスキャンされた画像を準備する方法
正確なOCR(光学的性格認識)は、完璧に調和された画像で始まります. スケーディングまたは回転スキャンはOKRの精度を低下させますので、デッキングは重要なプレプロセッサステップです. Aspose.Imaging for .NET では、外部の OCR ツールで最高の結果を得るためにドキュメント/写真をストレッチすることができます。
現実世界問題
OCR エンジンは、よく調和された画像で最適に動作します. クロックされたスキャンは欠けている文字やテキストエラーを引き起こします。
ソリューション概要
Aspose.Imaging を使用して .NET でスキャンされた画像を自動的に削除します. PNG または TIFF のような無損な形式で保存し、オプションの OCR ソフトウェアにインポートする準備ができています (Asposa.OCR、Tesseract など)。
原則
- Visual Studio 2019 以降
- .NET 6.0 またはそれ以降(または .Net Framework 4.6.2+)
- Aspose.Imaging for .NET から NuGet
- スキャンされたドキュメントまたは画像(JPEG、PNG、TIFFなど)
PM> Install-Package Aspose.Imaging
ステップ・ステップ・実施
ステップ1:スキャンされた画像を解除する
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
ステップ2:すべての OCR エンジンに解除された画像を移行する
- お気に入りの OCR ツールを使用して、画像からテキストを認識します。
- 例:輸入
scan_for_ocr_deskewed.png
OCR パイプラインまたはソフトウェア(Aspose.OCR、Tesseract、ABBYYなど)にアクセスします。
ステップ3:レビューとリフィン
- 正確性が低い場合は、デッキ/バックグラウンド設定またはスキャンの品質を調整します。
- デジタル化作業流を効率的に維持するために、すべての新しいスキャンのバッチ処理を検討します。
ケースとアプリケーションの使用
- 検索可能なテキストのためのアーカイブ、レシピ、契約、またはフォームのデジタル化
- 従順と監査のためのビジネス文書の準備
- OCRまたはドキュメント自動化パイプラインにおける正確性の向上
共通の課題と解決策
**不透明な画像はまだOCRエラーを引き起こします:**異なる背景色、騒音のための事前フィルタリング、または高解像度スキャンを試してみてください。
**出力ファイルは大きすぎる:**透明性が必要な場合は、圧縮でTIFFまたはPNGを使用します。
画像フォーマットの混合: OCR 前にすべてのスキャンを無損な形式に標準化します。
ベストプラクティス
- 常に損失のない画像形式を使用する OCR
- リファレンスのためのオリジナルおよび処理された画像を保存
- チームのためのデスクとデジタル化ワークフローを文書化する
FAQ
Q: フォルダー内のすべての画像をバッチアップできますか?**A: はい - このコードをすべてのファイルの上にロープに入れ、以前のバッチの例で示されたように。
**Q:どの背景色がOKRに最適ですか?**A: ホワイトはテキストにとって最も安全です; グラフィックに対して透明に使用するか、またはドキュメントに匹敵する。
Q:デスクトップ後にファイルを圧縮するのは大丈夫ですか?**A:損失のない圧縮を使用して、OCRの正確さを低下させるアーティファクトを避ける。
結論
Aspose.Imaging for .NET は、信頼性の高い OCR、デジタル化、およびビジネス自動化に不可欠です。 Aspose.Imaging for .NET API リファレンス .