Bagaimana untuk menanam dokumen yang disemak untuk OCR dalam .NET

Bagaimana untuk menanam dokumen yang disemak untuk OCR dalam .NET

Apabila menyiapkan dokumen yang disemak untuk **Optical Character Recognition (OCR) ** , ia adalah penting untuk menanam imej untuk memberi tumpuan kepada kawasan teks berat. menggali bahagian-bahagian yang tidak relevan dokumen memastikan bahawa perisian OCR boleh mengekstrak teks dengan lebih tepat dan cekap. Aspose.Imaging untuk .NET menyediakan alat-alat yang diperlukan untuk menganalisis dokumen dan menyediakan mereka untuk pemprosesan oCR.

Kelebihan Cropping Scanned Documents untuk OCR

  • Meningkatkan ketepatan :- Fokus usaha OCR pada bahagian teks yang berkaitan, mengelakkan bunyi bising atau kandungan yang tidak relevan.

  • Mengurangkan masa pemprosesan :- Menanam imej untuk meminimumkan kawasan yang akan diproses, mempercepatkan proses OCR.

  • *Lembaran teks yang lebih baik *:- Pastikan teks diselaraskan dengan betul dan dibentuk dengan baik untuk enjin OCR.

Syarat-syarat: Menetapkan Aspose.Imaging

  • Instalasi yang Rangkaian SDK dalam sistem anda.
  • Tambah Aspose.Imaging kepada projek anda: dotnet add package Aspose.Imaging
  • Dapatkan lesen yang diukur dan mengkonfigurasikannya menggunakan SetMeteredKey().

Langkah-langkah panduan untuk Crop Scanned Documents untuk OCR

Langkah 1: Mengesetkan lesen yang diukur

Setup Aspose.Imaging untuk akses yang tidak terhad kepada ciri-ciri pengeboran.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Langkah 2: Muat turun imej dokumen yang disemak

Muat turun fail dokumen yang disemak yang perlu dikumpulkan untuk persediaan OCR.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

Langkah 3: Menentukan kawasan penanaman

Menentukan kawasan rektangular di sekeliling teks yang perlu dikeluarkan.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

Langkah 4: Menggunakan Operasi Tanaman

Gunakan yang Crop() kaedah untuk mengekstrak bahagian teks yang diperlukan daripada imej.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

Langkah 5: Simpan imej yang disimpan

Simpan imej yang dikumpulkan untuk pemprosesan OCR.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

Pengenalan dan Penggunaan

  • Sistem pemprosesan dokumen :- Pelaksanaan pengeboran dalam sistem pemindaian dokumen automatik untuk menyediakan imej untuk OCR.

  • ** Integrasi aliran kerja OCR** :- Dokumen tanaman sebelum menyampaikan kepada enjin OCR untuk pengekstrakan teks yang lebih cepat dan tepat.

  • Pengesahan pengeluaran :- Buka imej yang dikumpulkan untuk memastikan teks itu jelas kelihatan dan dibahagikan dengan betul.

Permohonan dunia sebenar

    • Pengesahan dokumen undang-undang dan perubatan* :- Kontrak semak tanaman atau rekod perubatan untuk memberi tumpuan kepada teks penting untuk pemprosesan OCR.
  • Sistem Penyimpanan :- Menyediakan dokumen sejarah untuk pengekstrakan teks dan digitalisasi.

  • Perkh Pentadbiran Elektronik :- Mengautomatikkan pengekstrakan teks daripada borang atau aplikasi yang disemak.

Masalah dan penyelesaian umum

    • Kawasan penanaman yang tidak betul:- memastikan bahawa Rectangle koordinat menyesuaikan seksyen dengan teks.
  • Gambar berkualiti rendah :- Pastikan imej yang disemak mempunyai resolusi yang cukup tinggi untuk ketepatan OCR.

  • Peruntukan Permohonan :- Pastikan direktori output mempunyai keizinan tulis yang sesuai.

Conclusion

Dengan menggunakan Aspose.Imaging untuk .NET , anda boleh dengan mudah menanam dokumen yang disemak untuk memberi tumpuan kepada bahagian-bahagian penting untuk pemprosesan OCR, meningkatkan ketepatan dan kecekapan. penyelesaian ini sesuai untuk aliran kerja automatik dalam pengurusan dokumen, sistem undang-undang, dan penjagaan kesihatan.

 Melayu