Làm thế nào để chuẩn bị hình ảnh quét cho OCR với Deskew sử dụng .NET
Độ chính xác OCR (Optical Character Recognition) bắt đầu với các hình ảnh hoàn toàn phù hợp. quét hoặc xoay làm giảm độ chính tiết của OCR, do đó tháo rời là một bước quan trọng trước quá trình. Aspose.Imaging cho .NET cho phép bạn thu thập tài liệu / ảnh để đạt được kết quả tốt nhất trong bất kỳ công cụ OKR bên ngoài nào.
Vấn đề thế giới thực
Các động cơ OCR hoạt động tốt nhất trên các hình ảnh phù hợp. quét mờ gây ra các ký tự bị bỏ lỡ hoặc lỗi văn bản.
Giải pháp Overview
Sử dụng Aspose.Imaging cho .NET để tự động xóa các hình ảnh được quét. lưu chúng trong một định dạng không mất mát như PNG hoặc TIFF, sẵn sàng để nhập vào phần mềm OCR của bạn lựa chọn (Asposa.OCR, Tesseract, vv).
Nguyên tắc
- Visual Studio 2019 hoặc hơn
- .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
- Aspose.Imaging cho .NET từ NuGet
- Một tài liệu hoặc hình ảnh được quét (JPEG, PNG, TIFF, vv)
PM> Install-Package Aspose.Imaging
Chế độ thực hiện từng bước
Bước 1: Xóa hình ảnh được quét
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Bước 2: Chuyển các hình ảnh bị hỏng sang bất kỳ động cơ OCR nào
- Sử dụng công cụ OCR ưa thích của bạn để nhận ra văn bản từ hình ảnh được vẽ.
- Ví dụ: nhập khẩu
scan_for_ocr_deskewed.png
vào đường ống OCR hoặc phần mềm của bạn (Aspose.OCR, Tesseract, ABBYY, vv).
Bước 3: Đánh giá và đánh giá
- Kiểm tra kết quả OCR. Nếu độ chính xác thấp, điều chỉnh cài đặt trượt / nền hoặc chất lượng quét.
- Hãy xem xét việc xử lý gói cho tất cả các quét mới để giữ dòng công việc số hóa của bạn hiệu quả.
Sử dụng trường hợp và ứng dụng
- Số hóa các tài liệu, hồ sơ, hợp đồng hoặc biểu mẫu cho văn bản có thể tìm kiếm
- Chuẩn bị tài liệu kinh doanh để tuân thủ và kiểm toán
- Tăng độ chính xác trong bất kỳ OCR hoặc đường ống tự động hóa tài liệu
Những thách thức và giải pháp chung
** Hình ảnh bị xóa vẫn gây ra lỗi OCR:** Hãy thử các màu nền khác nhau, lọc trước cho tiếng ồn hoặc quét độ phân giải cao hơn.
Dữ liệu xuất là quá lớn: Sử dụng TIFF với nén, hoặc PNG nếu cần minh bạch.
Mix of image formats: Normalize tất cả scans to a lossless format before OCR.
Thực hành tốt nhất
- Luôn sử dụng định dạng hình ảnh không mất mát cho OCR
- Giữ hình ảnh gốc và được xử lý để tham khảo
- Tài liệu lưu trữ và dòng công việc số hóa của bạn cho nhóm
FAQ
**Q: Tôi có thể phân phối tất cả các hình ảnh trong một thư mục không?**A: Có - nhúng mã này vào một vòng tròn trên tất cả các tệp, như đã được hiển thị trong các ví dụ trước.
**Q: Màu nền nào hoạt động tốt nhất cho OCR?**A: Màu trắng an toàn nhất cho văn bản; sử dụng minh bạch cho đồ họa, hoặc phù hợp với tài liệu của bạn.
**Q: Có OK để nén các tập tin sau khi tắt không?**A: Sử dụng nén rác để tránh các tác phẩm làm giảm độ chính xác OCR.
Kết luận
Phát triển với Aspose.Imaging cho .NET là một điều cần thiết cho OCR đáng tin cậy, số hóa và tự động hóa kinh doanh. Giữ đường ống của bạn sạch sẽ, nhanh chóng và chính xác! Aspose.Imaging cho .NET API Reference .