Bagaimana untuk menyediakan imej yang disemak untuk OCR dengan Deskew menggunakan Aspose.Imaging untuk .NET
Accurate OCR (Optical Character Recognition) bermula dengan imej-imej yang diselaraskan dengan sempurna. pemindaian yang diputar atau berputar mengurangkan ketepatan oCR, jadi pemecahan adalah langkah pra-proses yang penting. Aspose.Imaging untuk .NET membolehkan anda memotong dokumen/gambar untuk hasil terbaik dalam mana-mana alat ocr luaran.
Masalah dunia sebenar
Enjin OCR berfungsi dengan baik pada imej-imej yang diselaraskan. pemindaian crawled menyebabkan watak-watak yang hilang atau kesilapan teks. pengelasan manual terlalu perlahan untuk batch besar.
Gambaran keseluruhan penyelesaian
Simpan dalam format tanpa kerugian seperti PNG atau TIFF, bersedia untuk diimport ke dalam perisian OCR pilihan anda (Aspose.OCR, Tesseract, dan lain-lain).
Prerequisites
- Visual Studio 2019 atau seterusnya
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.Imaging untuk .NET daripada NuGet
- Dokumen atau imej yang disemak (JPEG, PNG, TIFF, dan lain-lain)
PM> Install-Package Aspose.Imaging
Pelaksanaan langkah demi langkah
Langkah 1: Menghapuskan imej yang disemak
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Langkah 2: Melalui imej-imej yang dilipat ke mana-mana enjin OCR
- Gunakan alat OCR kegemaran anda untuk mengenali teks daripada imej yang dilipat.
- Contoh : Import
scan_for_ocr_deskewed.png
ke dalam paip OCR anda atau perisian (Aspose.OCR, Tesseract, ABBYY, dan lain-lain).
Langkah 3: Ulasan dan Perbaikan
- Semak hasil OCR. Jika ketepatan rendah, menyesuaikan tetapan permukaan / latar belakang atau kualiti pemindaian.
- Pertimbangkan pemprosesan batch untuk semua pemindaian baru untuk mengekalkan aliran kerja digitalisasi anda yang cekap.
Penggunaan Kasus dan Permohonan
- Digitalisasi arkib, penerimaan, kontrak, atau borang untuk teks yang boleh dicari
- Menyediakan dokumen perniagaan untuk pematuhan dan audit
- Meningkatkan ketepatan dalam mana-mana OCR atau paip automatik dokumen
Tantangan dan Penyelesaian Bersama
Gambar yang rosak masih menyebabkan kesilapan OCR: Cuba warna latar belakang yang berbeza, pre-filter untuk bunyi bising, atau pemindaian resolusi yang lebih tinggi.
File output terlalu besar: Gunakan TIFF dengan kompresi, atau PNG jika ketelusan diperlukan.
Mix format imej: Normalisasi semua pemindaian kepada format tanpa kerugian sebelum OCR.
amalan terbaik
- Sentiasa gunakan format imej tanpa kerugian untuk OCR
- Simpan imej asli dan diproses untuk rujukan
- Dokumen laluan dan aliran kerja digitalisasi anda untuk pasukan
FAQ
**Q: Bolehkah saya membungkus semua imej dalam folder?**A: Ya, letakkan kod ini dalam lubang di atas semua fail, seperti yang ditunjukkan dalam contoh batch terdahulu.
**Q: Warna latar belakang mana yang paling berfungsi untuk OCR?**A: Putih adalah yang paling selamat untuk teks; gunakan transparan untuk grafik, atau sepadan dengan dokumen anda.
**Q: Adakah ia OK untuk memampatkan fail selepas deskew?**A: Gunakan kompresi tanpa kerugian untuk mengelakkan artefak yang mengurangkan ketepatan OCR.
Conclusion
Membangunkan dengan Aspose.Imaging untuk .NET adalah satu keperluan untuk OCR yang boleh dipercayai, digitalisasi, dan automatik perniagaan.Jadilah paip anda bersih, cepat dan tepat! Aspose.Imaging untuk .NET API Rujukan .