Cara Menanam Dokumen Scanned untuk OCR di .NET

Cara Menanam Dokumen Scanned untuk OCR di .NET

Ketika mempersiapkan dokumen yang dipindai untuk Optical Character Recognition (OCR), sangat penting untuk menanam gambar untuk fokus pada area teks berat.Menggarap bagian yang tidak relevan dari dokumen memastikan bahwa perangkat lunak OCR dapat mengekstrak teks lebih akurat dan efisien. Aspose.Imaging untuk .NET menyediakan alat yang diperlukan untuk menanam dokumen yang dipindai dan mempersiapkan mereka untuk pemrosesan OCR.

Manfaat dari Cropping Scanned Documents untuk OCR

  • Meningkatkan ketepatan:- Fokuskan upaya OCR pada bagian teks yang relevan, menghindari kebisingan atau konten yang tidak relevan.

  • Mengurangi waktu pemrosesan:- Menanam gambar untuk meminimalisir area yang akan diproses, mempercepat proses OCR.

  • Bahasa Inggeris yang lebih baik:- Pastikan teks diselaraskan dan dibentuk dengan baik untuk mesin OCR.

Persyaratan: Menetapkan Aspose.Imaging

  • Instalasi yang .NET SDK pada sistem Anda.
  • Tambahkan Aspose.Imaging ke proyek Anda: dotnet add package Aspose.Imaging
  • Dapatkan lisensi yang diukur dan mengkonfigurasikannya menggunakan SetMeteredKey().

Panduan Langkah demi Langkah untuk Crop Scanned Documents untuk OCR

Langkah 1: Mengkonfigurasi Lisensi Metered

Mengatur Aspose.Imaging untuk akses tak terbatas ke fitur menggali.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Langkah 2: Mengisi gambar dokumen yang dipindai

Muat turun file dokumen yang dipindai yang perlu dikumpulkan untuk persiapan OCR.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

Langkah 3: Tentukan area tanaman

Tentukan area rektangular di sekitar teks yang perlu dikeluarkan.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

Langkah 4: Menggunakan Operasi Tanaman

Gunakan The Crop() Metode untuk mengekstrak bagian teks yang diperlukan dari gambar.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

Langkah 5: Simpan gambar yang tersembunyi

Simpan gambar yang dikumpulkan untuk pemrosesan OCR.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

Pengelolaan dan Penggunaan

  • Sistem pemrosesan dokumen:- Implementasi penggalian dalam sistem pemindaian dokumen otomatis untuk mempersiapkan gambar untuk OCR.

  • Integrasi Workflow OCR:- Dokumen tanaman sebelum mentransfer ke mesin OCR untuk ekstraksi teks yang lebih cepat dan lebih akurat.

  • Pengesahan output:- Buka gambar yang dikumpulkan untuk memastikan teks terlihat dengan jelas dan dikelompokkan dengan benar.

Aplikasi dunia nyata

  • Penilaian Dokumen Hukum dan Perubatan:- Crop scan kontrak atau rekaman medis untuk fokus pada teks penting untuk OCR pemrosesan.

  • Sistem Arsip:- Siapkan dokumen sejarah untuk ekstraksi teks dan digitalisasi.

  • Layanan e-Government untuk:- Mengautomatikkan ekstraksi teks dari formulir atau aplikasi yang dipindai.

Masalah dan Fix

  • Kedudukan tanaman yang tidak tepat:- memastikan bahwa Rectangle koordinat sesuai dengan bagian dengan teks.

  • Gambar berkualitas rendah:- Pastikan gambar yang dipindai memiliki resolusi yang cukup tinggi untuk ketepatan OCR.

  • Permohonan Permohonan:- Pastikan direktori output memiliki izin menulis yang sesuai.

Kesimpulan

Dengan menggunakan Aspose.Imaging untuk .NET, Anda dapat dengan mudah menanam dokumen yang dipindai untuk fokus pada bagian penting untuk pemrosesan OCR, meningkatkan ketepatan dan efisiensi. solusi ini ideal untuk aliran kerja otomatis dalam manajemen dokumen, sistem hukum, dan perawatan kesehatan.

 Indonesia