Πώς να προετοιμάσετε σαρωμένες εικόνες για OCR με Deskew χρησιμοποιώντας .NET
Η ακρίβεια OCR (Optical Character Recognition) ξεκινά με τέλεια ευθυγραμμισμένες εικόνες. οι στρογγυλεμένες ή περιστρεφόμενες σαρώσεις μειώνουν την ορμότητα του ΟCR, οπότε η αποσυναρμολόγηση είναι ένα κρίσιμο βήμα προεπεξεργασίας. το Aspose.Imaging για .NET σας επιτρέπει να τραβήξετε έγγραφα / φωτογραφίες για τα καλύτερα αποτελέσματα σε οποιοδήποτε εξωτερικό εργαλείο OCR.
Το πρόβλημα του πραγματικού κόσμου
Οι κινητήρες OCR λειτουργούν καλύτερα σε καλά προσαρμοσμένες εικόνες. οι σάρωση προκαλεί χαμένα χαρακτήρα ή σφάλματα κειμένου. Η χειροκίνητη σφραγίδα είναι πολύ αργή για μεγάλα κομμάτια.
Συνοπτική λύση
Χρησιμοποιήστε το Aspose.Imaging για .NET για να αποσυναρμολογήσετε αυτόματα τις σαρωμένες εικόνες. Αποθηκεύστε τις σε μια μορφή χωρίς απώλειες όπως PNG ή TIFF, έτοιμη για εισαγωγή στο λογισμικό OCR της επιλογής σας (Asposa.OCR, Tesseract, κλπ.).
Προϋποθέσεις
- Visual Studio 2019 ή αργότερα
- .NET 6.0 ή μεταγενέστερος (ή .Net Framework 4.6.2+)
- Aspose.Imaging για .NET από το NuGet
- Ένα σαρωμένο έγγραφο ή εικόνα (JPEG, PNG, TIFF, κλπ.)
PM> Install-Package Aspose.Imaging
Βήμα προς βήμα εφαρμογή
Βήμα 1: Απομακρύνετε την σαρωμένη εικόνα
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Βήμα 2: Μεταφέρετε τις απεικονισμένες εικόνες σε οποιοδήποτε κινητήρα OCR
- Χρησιμοποιήστε το προτιμώμενο εργαλείο OCR για να αναγνωρίσετε το κείμενο από την απεικονισμένη εικόνα.
- Παράδειγμα: Εισαγωγή
scan_for_ocr_deskewed.png
στο σωλήνα OCR ή το λογισμικό σας (Aspose.OCR, Tesseract, ABBYY, κλπ.).
Βήμα 3: Επισκόπηση και αναθεώρηση
- Ελέγξτε τα αποτελέσματα OCR. Εάν η ακρίβεια είναι χαμηλή, προσαρμόστε τις ρυθμίσεις αποχέτευσης/εστίασης ή την ποιότητα της σάρωσης.
- Σκεφτείτε την επεξεργασία συσκευών για όλες τις νέες σαρώσεις για να διατηρήσετε την ροή εργασίας ψηφιοποίησης σας αποτελεσματική.
Χρήση περιπτώσεων και εφαρμογών
- Ψηφιοποίηση αρχείων, εγγράφων, συμβάσεων ή φόρμας για κείμενο που μπορεί να αναζητηθεί
- Προετοιμασία επιχειρηματικών εγγράφων για τη συμμόρφωση και τον έλεγχο
- Ενίσχυση της ακρίβειας σε οποιοδήποτε σωλήνα αυτοματοποίησης OCR ή εγγράφων
Κοινές προκλήσεις και λύσεις
** Οι αποσυνδεδεμένες εικόνες εξακολουθούν να προκαλούν σφάλματα OCR:** Δοκιμάστε διαφορετικά χρώματα φόντου, προ-φιλτράζοντας για θόρυβο ή σαρώσεις υψηλότερης ανάλυσης.
** Τα αρχεία εξόδου είναι πολύ μεγάλα:** Χρησιμοποιήστε TIFF με συμπίεση ή PNG εάν απαιτείται διαφάνεια.
Μίγμα μορφών εικόνας: Κανονικοποιήστε όλες τις σαρώσεις σε μια μορφή χωρίς απώλειες πριν από το OCR.
שיטות עבודה מומלצות
- Πάντα χρησιμοποιήστε μορφές εικόνας χωρίς απώλειες για OCR
- Κρατήστε πρωτότυπες και επεξεργασμένες εικόνες για αναφορά
- Εγγράψτε τη ροή εργασίας αποσύνδεσης και ψηφιοποίησης για την ομάδα
FAQ
**Q: Μπορώ να αποσπάσω όλες τις εικόνες σε ένα φάκελο;**Α: Ναι – βάλτε αυτόν τον κώδικα σε ένα κύκλο πάνω από όλα τα αρχεία, όπως φαίνεται στα προηγούμενα παραδείγματα συσκευών.
**Q: Ποιο χρώμα φόντου λειτουργεί καλύτερα για το OCR;**Α: Το λευκό είναι το ασφαλέστερο για το κείμενο. χρησιμοποιήστε διαφανή για τα γραφικά, ή ταιριάζει με το έγγραφο σας.
**Q: Είναι εντάξει να συμπιέσετε τα αρχεία μετά την αποσύνδεση;**Α: Χρησιμοποιήστε συμπίεση χωρίς απώλεια για να αποφύγετε αντικείμενα που μειώνουν την ακρίβεια του OCR.
Συμπεράσματα
Αποκάλυψη με Aspose.Imaging για .NET είναι μια ανάγκη για αξιόπιστη OCR, ψηφιοποίηση και επιχειρηματική αυτοματοποίηση. Κρατήστε το σωλήνα σας καθαρό, γρήγορο και ακριβές! Σχετικά με το .NET API Reference .