Bagaimana untuk menanam dokumen yang disemak untuk OCR dalam .NET

Bagaimana untuk menanam dokumen yang disemak untuk OCR dalam .NET

Apabila menyiapkan dokumen yang disemak untuk Optical Character Recognition (OCR), ia adalah penting untuk menanam imej untuk memberi tumpuan kepada kawasan teks berat. menggali bahagian-bahagian yang tidak relevan dokumen memastikan bahawa perisian OCR boleh mengekstrak teks dengan lebih tepat dan cekap. Aspose.Imaging untuk .NET menyediakan alat-alat yang diperlukan untuk menganalisis dokumen dan menyediakan mereka untuk pemprosesan oCR.

Kelebihan Cropping Scanned Documents untuk OCR

  • Meningkatkan ketepatan:- Fokus usaha OCR pada bahagian teks yang berkaitan, mengelakkan bunyi bising atau kandungan yang tidak relevan.

  • Mengurangkan masa pemprosesan:- Menanam imej untuk meminimumkan kawasan yang akan diproses, mempercepatkan proses OCR.

  • Lembaran teks yang lebih baik:- Pastikan teks diselaraskan dengan betul dan dibentuk dengan baik untuk enjin OCR.

Syarat-syarat: Menetapkan Aspose.Imaging

  • Instalasi yang .Rangkaian SDK dalam sistem anda.
  • Tambah Aspose.Imaging kepada projek anda: dotnet add package Aspose.Imaging
  • Dapatkan lesen yang diukur dan mengkonfigurasikannya menggunakan SetMeteredKey().

Langkah-langkah panduan untuk Crop Scanned Documents untuk OCR

Langkah 1: Mengesetkan lesen yang diukur

Setup Aspose.Imaging untuk akses yang tidak terhad kepada ciri-ciri pengeboran.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Langkah 2: Muat turun imej dokumen yang disemak

Muat turun fail dokumen yang disemak yang perlu dikumpulkan untuk persediaan OCR.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

Langkah 3: Menentukan kawasan penanaman

Menentukan kawasan rektangular di sekeliling teks yang perlu dikeluarkan.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

Langkah 4: Menggunakan Operasi Tanaman

Gunakan yang Crop() kaedah untuk mengekstrak bahagian teks yang diperlukan daripada imej.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

Langkah 5: Simpan imej yang disimpan

Simpan imej yang dikumpulkan untuk pemprosesan OCR.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

Pengenalan dan Penggunaan

  • Sistem pemprosesan dokumen:- Pelaksanaan pengeboran dalam sistem pemindaian dokumen automatik untuk menyediakan imej untuk OCR.

  • Integrasi aliran kerja OCR:- Dokumen tanaman sebelum menyampaikan kepada enjin OCR untuk pengekstrakan teks yang lebih cepat dan tepat.

  • Pengesahan pengeluaran:- Buka imej yang dikumpulkan untuk memastikan teks itu jelas kelihatan dan dibahagikan dengan betul.

Permohonan dunia sebenar

  • Pengesahan dokumen undang-undang dan perubatan:- Kontrak semak tanaman atau rekod perubatan untuk memberi tumpuan kepada teks penting untuk pemprosesan OCR.

  • Sistem Penyimpanan:- Menyediakan dokumen sejarah untuk pengekstrakan teks dan digitalisasi.

  • Perkh Pentadbiran Elektronik:- Mengautomatikkan pengekstrakan teks daripada borang atau aplikasi yang disemak.

Masalah dan penyelesaian umum

  • Kawasan penanaman yang tidak betul:- memastikan bahawa Rectangle koordinat menyesuaikan seksyen dengan teks.

  • Gambar berkualiti rendah:- Pastikan imej yang disemak mempunyai resolusi yang cukup tinggi untuk ketepatan OCR.

  • Peruntukan Permohonan:- Pastikan direktori output mempunyai keizinan tulis yang sesuai.

Conclusion

Dengan menggunakan Aspose.Imaging untuk .NET , anda boleh dengan mudah menanam dokumen yang disemak untuk memberi tumpuan kepada bahagian-bahagian penting untuk pemprosesan OCR, meningkatkan ketepatan dan kecekapan. penyelesaian ini sesuai untuk aliran kerja automatik dalam pengurusan dokumen, sistem undang-undang, dan penjagaan kesihatan.

 Melayu