Bagaimana untuk menanam dokumen yang disemak untuk OCR dalam .NET
Apabila menyiapkan dokumen yang disemak untuk **Optical Character Recognition (OCR) ** , ia adalah penting untuk menanam imej untuk memberi tumpuan kepada kawasan teks berat. menggali bahagian-bahagian yang tidak relevan dokumen memastikan bahawa perisian OCR boleh mengekstrak teks dengan lebih tepat dan cekap. Aspose.Imaging untuk .NET menyediakan alat-alat yang diperlukan untuk menganalisis dokumen dan menyediakan mereka untuk pemprosesan oCR.
Kelebihan Cropping Scanned Documents untuk OCR
Meningkatkan ketepatan :- Fokus usaha OCR pada bahagian teks yang berkaitan, mengelakkan bunyi bising atau kandungan yang tidak relevan.
Mengurangkan masa pemprosesan :- Menanam imej untuk meminimumkan kawasan yang akan diproses, mempercepatkan proses OCR.
*Lembaran teks yang lebih baik *:- Pastikan teks diselaraskan dengan betul dan dibentuk dengan baik untuk enjin OCR.
Syarat-syarat: Menetapkan Aspose.Imaging
- Instalasi yang Rangkaian SDK dalam sistem anda.
- Tambah Aspose.Imaging kepada projek anda:
dotnet add package Aspose.Imaging
- Dapatkan lesen yang diukur dan mengkonfigurasikannya menggunakan
SetMeteredKey()
.
Langkah-langkah panduan untuk Crop Scanned Documents untuk OCR
Langkah 1: Mengesetkan lesen yang diukur
Setup Aspose.Imaging untuk akses yang tidak terhad kepada ciri-ciri pengeboran.
using Aspose.Imaging;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Langkah 2: Muat turun imej dokumen yang disemak
Muat turun fail dokumen yang disemak yang perlu dikumpulkan untuk persediaan OCR.
string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
Console.WriteLine($"Loaded scanned document: {inputPath}");
}
Langkah 3: Menentukan kawasan penanaman
Menentukan kawasan rektangular di sekeliling teks yang perlu dikeluarkan.
var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");
Langkah 4: Menggunakan Operasi Tanaman
Gunakan yang Crop()
kaedah untuk mengekstrak bahagian teks yang diperlukan daripada imej.
image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");
Langkah 5: Simpan imej yang disimpan
Simpan imej yang dikumpulkan untuk pemprosesan OCR.
image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");
Pengenalan dan Penggunaan
Sistem pemprosesan dokumen :- Pelaksanaan pengeboran dalam sistem pemindaian dokumen automatik untuk menyediakan imej untuk OCR.
** Integrasi aliran kerja OCR** :- Dokumen tanaman sebelum menyampaikan kepada enjin OCR untuk pengekstrakan teks yang lebih cepat dan tepat.
Pengesahan pengeluaran :- Buka imej yang dikumpulkan untuk memastikan teks itu jelas kelihatan dan dibahagikan dengan betul.
Permohonan dunia sebenar
- Pengesahan dokumen undang-undang dan perubatan* :- Kontrak semak tanaman atau rekod perubatan untuk memberi tumpuan kepada teks penting untuk pemprosesan OCR.
Sistem Penyimpanan :- Menyediakan dokumen sejarah untuk pengekstrakan teks dan digitalisasi.
Perkh
Pentadbiran Elektronik :- Mengautomatikkan pengekstrakan teks daripada borang atau aplikasi yang disemak.
Masalah dan penyelesaian umum
- Kawasan penanaman yang tidak betul:- memastikan bahawa
Rectangle
koordinat menyesuaikan seksyen dengan teks.
- Kawasan penanaman yang tidak betul:- memastikan bahawa
Gambar berkualiti rendah :- Pastikan imej yang disemak mempunyai resolusi yang cukup tinggi untuk ketepatan OCR.
Peruntukan Permohonan :- Pastikan direktori output mempunyai keizinan tulis yang sesuai.
Conclusion
Dengan menggunakan Aspose.Imaging untuk .NET , anda boleh dengan mudah menanam dokumen yang disemak untuk memberi tumpuan kepada bahagian-bahagian penting untuk pemprosesan OCR, meningkatkan ketepatan dan kecekapan. penyelesaian ini sesuai untuk aliran kerja automatik dalam pengurusan dokumen, sistem undang-undang, dan penjagaan kesihatan.