Cara mempersiapkan gambar yang dipindai untuk OCR dengan Deskew menggunakan .NET

Cara mempersiapkan gambar yang dipindai untuk OCR dengan Deskew menggunakan .NET

Accurate OCR (Optical Character Recognition) dimulai dengan gambar yang sepenuhnya diselaraskan. scans terbalik atau berputar mengurangi keakuratan oCR, sehingga penarikan adalah langkah pre-processing yang penting. Aspose.Imaging untuk .NET memungkinkan Anda untuk menyemprot dokumen / foto untuk hasil terbaik dalam alat OCC eksternal.

Masalah dunia nyata

Mesin OCR bekerja dengan baik pada gambar yang diselaraskan. scans yang tergelincir menyebabkan karakter yang hilang atau kesalahan teks. pemotongan manual terlalu lambat untuk batch besar.

Penyelesaian Overview

Gunakan Aspose.Imaging untuk .NET untuk memecahkan gambar yang dipindai secara otomatis. menyimpannya dalam format tanpa kerugian seperti PNG atau TIFF, siap untuk diimport ke perangkat lunak OCR pilihan Anda (Asposa.OCR, Tesseract, dll.).

Persyaratan

  • Visual Studio 2019 atau lebih baru
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.Imaging untuk .NET dari NuGet
  • Dokumen atau gambar yang dipindai (JPEG, PNG, TIFF, dll)
PM> Install-Package Aspose.Imaging

Implementasi langkah demi langkah

Langkah 1: Menghapus gambar yang dipindai

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Langkah 2: Mengalihkan gambar yang tertutup ke mesin OCR

  • Gunakan alat OCR favorit Anda untuk mengenali teks dari gambar yang diputar.
  • Contoh : Import scan_for_ocr_deskewed.png ke saluran OCR atau perangkat lunak Anda (Aspose.OCR, Tesseract, ABBYY, dll).

Langkah 3: Ulasan dan Refine

  • Jika ketepatan rendah, menyesuaikan pengaturan deskew/background atau kualitas scan.
  • Pertimbangkan pemrosesan batch untuk semua pemindaian baru untuk menjaga aliran kerja digitalisasi Anda efisien.

Menggunakan kasus dan aplikasi

  • Digitalisasi arkib, penerimaan, kontrak, atau formulir untuk teks yang dapat dicari
  • Persiapan dokumen bisnis untuk pematuhan dan audit
  • Meningkatkan ketepatan dalam OCR atau pipa otomatisasi dokumen

Tantangan dan Solusi Umum

Gambar yang terganggu masih menyebabkan kesalahan OCR: Coba warna latar belakang yang berbeda, pre-filter untuk kebisingan, atau pemindaian resolusi yang lebih tinggi.

File output terlalu besar: Gunakan TIFF dengan kompresi, atau PNG jika transparansi diperlukan.

Mix of image formats: Normalisasi semua pemindaian ke format tanpa kerugian sebelum OCR.

Praktik Terbaik

  • Selalu gunakan format gambar tanpa kerugian untuk OCR
  • Simpan gambar asli dan diproses untuk referensi
  • Dokumen deskew Anda dan aliran kerja digitalisasi untuk tim

FAQ

**Q: Bolehkah saya menggabungkan semua gambar dalam folder?**A: Ya, masukkan kode ini ke dalam lubang di atas semua file, seperti yang ditunjukkan dalam contoh batch sebelumnya.

**Q: Warna latar belakang mana yang paling cocok untuk OCR?**A: Putih adalah yang paling aman untuk teks; gunakan transparan untuk grafik, atau sesuai dengan dokumen Anda.

**Q: Apakah itu OK untuk memampatkan file setelah deskew?**A: Gunakan kompresi tanpa kerugian untuk menghindari artefak yang mengurangi keakuratan OCR.

Kesimpulan

Memulai dengan Aspose.Imaging untuk .NET adalah kebutuhan untuk OCR yang dapat diandalkan, digitalisasi, dan otomatisasi bisnis.Jadilah pipa Anda bersih, cepat dan akurat! Aspose.Imaging untuk .NET API Referensi .

 Indonesia