Bagaimana untuk menyediakan imej yang disemak untuk OCR dengan Deskew menggunakan .NET

Bagaimana untuk menyediakan imej yang disemak untuk OCR dengan Deskew menggunakan .NET

Accurate OCR (Optical Character Recognition) bermula dengan imej-imej yang diselaraskan dengan sempurna. pemindaian yang diputar atau berputar mengurangkan ketepatan oCR, jadi pemecahan adalah langkah pra-proses yang penting. Aspose.Imaging untuk .NET membolehkan anda memotong dokumen/gambar untuk hasil terbaik dalam mana-mana alat ocr luaran.

Masalah dunia sebenar

Enjin OCR berfungsi dengan baik pada imej-imej yang diselaraskan. pemindaian crawled menyebabkan watak-watak yang hilang atau kesilapan teks. pengelasan manual terlalu perlahan untuk batch besar.

Gambaran keseluruhan penyelesaian

Simpan dalam format tanpa kerugian seperti PNG atau TIFF, bersedia untuk diimport ke dalam perisian OCR pilihan anda (Aspose.OCR, Tesseract, dan lain-lain).

Prerequisites

  • Visual Studio 2019 atau seterusnya
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.Imaging untuk .NET daripada NuGet
  • Dokumen atau imej yang disemak (JPEG, PNG, TIFF, dan lain-lain)
PM> Install-Package Aspose.Imaging

Pelaksanaan langkah demi langkah

Langkah 1: Menghapuskan imej yang disemak

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Langkah 2: Melalui imej-imej yang dilipat ke mana-mana enjin OCR

  • Gunakan alat OCR kegemaran anda untuk mengenali teks daripada imej yang dilipat.
  • Contoh : Import scan_for_ocr_deskewed.png ke dalam paip OCR anda atau perisian (Aspose.OCR, Tesseract, ABBYY, dan lain-lain).

Langkah 3: Ulasan dan Perbaikan

  • Semak hasil OCR. Jika ketepatan rendah, menyesuaikan tetapan permukaan / latar belakang atau kualiti pemindaian.
  • Pertimbangkan pemprosesan batch untuk semua pemindaian baru untuk mengekalkan aliran kerja digitalisasi anda yang cekap.

Penggunaan Kasus dan Permohonan

  • Digitalisasi arkib, penerimaan, kontrak, atau borang untuk teks yang boleh dicari
  • Menyediakan dokumen perniagaan untuk pematuhan dan audit
  • Meningkatkan ketepatan dalam mana-mana OCR atau paip automatik dokumen

Tantangan dan Penyelesaian Bersama

Gambar yang rosak masih menyebabkan kesilapan OCR: Cuba warna latar belakang yang berbeza, pre-filter untuk bunyi bising, atau pemindaian resolusi yang lebih tinggi.

File output terlalu besar: Gunakan TIFF dengan kompresi, atau PNG jika ketelusan diperlukan.

Mix format imej: Normalisasi semua pemindaian kepada format tanpa kerugian sebelum OCR.

amalan terbaik

  • Sentiasa gunakan format imej tanpa kerugian untuk OCR
  • Simpan imej asli dan diproses untuk rujukan
  • Dokumen laluan dan aliran kerja digitalisasi anda untuk pasukan

FAQ

**Q: Bolehkah saya membungkus semua imej dalam folder?**A: Ya, letakkan kod ini dalam lubang di atas semua fail, seperti yang ditunjukkan dalam contoh batch terdahulu.

**Q: Warna latar belakang mana yang paling berfungsi untuk OCR?**A: Putih adalah yang paling selamat untuk teks; gunakan transparan untuk grafik, atau sepadan dengan dokumen anda.

**Q: Adakah ia OK untuk memampatkan fail selepas deskew?**A: Gunakan kompresi tanpa kerugian untuk mengelakkan artefak yang mengurangkan ketepatan OCR.

Conclusion

Membangunkan dengan Aspose.Imaging untuk .NET adalah satu keperluan untuk OCR yang boleh dipercayai, digitalisasi, dan automatik perniagaan.Jadilah paip anda bersih, cepat dan tepat! Aspose.Imaging untuk .NET API Rujukan .

 Melayu