Πώς να καλλιεργήσετε σαρωμένα έγγραφα για OCR στο .NET

Πώς να καλλιεργήσετε σαρωμένα έγγραφα για OCR στο .NET

Κατά την προετοιμασία σαρωμένων εγγράφων για Optical Character Recognition (OCR), είναι απαραίτητο να καλλιεργηθούν εικόνες για να επικεντρωθούν σε περιοχές βαρέων κειμένου. Η καλλιεργασία μη σχετικών τμημάτων του εγγράφου εξασφαλίζει ότι το λογισμικό OCR μπορεί να εξάγει κείμενο με μεγαλύτερη ακρίβεια και αποτελεσματικότητα. Aspose.Imaging για .NET παρέχει τα εργαλεία που απαιτούνται για να καλλιεργηθούν σαρωμένα έγγραφα και να τα προετοιμάσει για την επεξεργασία OCR.

Πλεονεκτήματα του Cropping Scanned Documents για OCR

  • Βελτίωση της ακρίβειας:- Επικεντρώστε τις προσπάθειες του OCR σε σχετικές ενότητες κειμένου, αποφεύγοντας το θόρυβο ή το μη σχετικό περιεχόμενο.

  • Μειωμένο χρόνο επεξεργασίας:- Καλλιεργήστε την εικόνα για να ελαχιστοποιήσετε την περιοχή που πρέπει να επεξεργαστεί, επιταχύνοντας τη διαδικασία OCR.

  • Καλύτερη έκδοση κειμένου:- Βεβαιωθείτε ότι το κείμενο είναι σωστά εναρμονισμένο και καλά προσαρμοσμένο για τους κινητήρες OCR.

Προϋποθέσεις: Ρυθμίστε το Aspose.Imaging

  • Εγκαταστήστε το Το .NET SDK στο σύστημά σας.
  • Προσθέστε Aspose.Imaging στο έργο σας: dotnet add package Aspose.Imaging
  • Αποκτήστε μια μετρημένη άδεια και ρυθμίστε την χρησιμοποιώντας SetMeteredKey().

Βήμα προς βήμα Οδηγός για τα κρεμμυρισμένα έγγραφα για OCR

Βήμα 1: Ρυθμίστε τη μετρημένη άδεια

Ρυθμίστε το Aspose.Imaging για απεριόριστη πρόσβαση σε χαρακτηριστικά κοπής.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Βήμα 2: Κατεβάστε το Scanned Document Image

Κατεβάστε το σαρωμένο αρχείο εγγράφου που πρέπει να συσσωρευτεί για την προετοιμασία του OCR.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

Βήμα 3: Προσδιορίστε την περιοχή καλλιέργειας

Προσδιορίστε την ορθογώνια περιοχή γύρω από το κείμενο που πρέπει να αφαιρεθεί.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

Βήμα 4: Εφαρμόστε τη λειτουργία της καλλιέργειας

Χρησιμοποιήστε το Crop() Μέθοδος για την εξαγωγή του απαιτούμενου κειμένου τμήματος από την εικόνα.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

Βήμα 5: Αποθηκεύστε την κρυμμένη εικόνα

Αποθηκεύστε τη συσσωρευμένη εικόνα για επεξεργασία OCR.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

Εφαρμογή και χρήση

  • Συστήματα επεξεργασίας εγγράφων:- Εφαρμογή συσσωρεύσεων σε αυτόματα συστήματα σάρωσης εγγράφων για την προετοιμασία εικόνων για OCR.

  • Ολοκλήρωση της ροής εργασίας του OCR:- Τα έγγραφα καλλιέργειας πριν τα μεταφέρετε στους κινητήρες OCR για ταχύτερη και ακριβέστερη εξόρυξη κειμένου.

  • Εισαγωγική επιβεβαίωση:- Ανοίξτε την κρυμμένη εικόνα για να βεβαιωθείτε ότι το κείμενο είναι σαφώς ορατό και σχηματίζεται σωστά.

Εφαρμογές πραγματικού κόσμου

  • Νομική και ιατρική σάρωση εγγράφων:- Καλλιεργημένα συμβόλαια ή ιατρικά αρχεία για να επικεντρωθεί στο σημαντικό κείμενο για την επεξεργασία OCR.

  • Αρχείο Συστημάτων:- Προετοιμάστε ιστορικά έγγραφα για εξόρυξη κειμένου και ψηφιοποίηση.

  • Υπηρεσίες ηλεκτρονικής διακυβέρνησης:- Αυτόματη εξόρυξη κειμένου από σαρωμένες φόρμες ή εφαρμογές.

Κοινά ζητήματα και διορθώσεις

  • Ακατάλληλη περιοχή καλλιέργειας:- Βεβαιωθείτε ότι η Rectangle Οι συντονισμοί ταιριάζουν με το κείμενο.

  • Φωτογραφίες χαμηλής ποιότητας:- Βεβαιωθείτε ότι η σαρωμένη εικόνα έχει αρκετά υψηλή ανάλυση για ακρίβεια OCR.

  • Αδειοδότηση αρχείου:- Βεβαιωθείτε ότι οι διευθύνσεις παραγωγής έχουν τις κατάλληλες άδειες γραφής.

Συμπεράσματα

Χρησιμοποιώντας Aspose.Imaging για .NET, μπορείτε εύκολα να καλλιεργήσετε σαρωμένα έγγραφα για να επικεντρωθείτε στα σημαντικά τμήματα για την επεξεργασία OCR, βελτιώνοντας την ακρίβεια και την αποτελεσματικότητα.

 Ελληνικά