Πώς να εξαγάγετε κείμενο από σαρωμένες εικόνες με Aspose.OCR

Πώς να εξαγάγετε κείμενο από σαρωμένες εικόνες με Aspose.OCR

Η σάρωση συμβάσεων, συμφωνιών, σελίδων βιβλίου ή παλιών αρχείων συνήθως παράγει αρχεία εικόνας – όχι κείμενο που μπορεί να επεξεργαστεί.Το Aspose.OCR Scan to Text for .NET σας επιτρέπει να αυτοματοποιήσετε την εξόρυξη δομημένου, αναζητήσιμου κειμένου από οποιοδήποτε αποστραμμένο έγγραφο ή φωτογραφία, εξοικονομεύοντας αμέτρητες ώρες χειροκίνητης εισόδου.

Το πρόβλημα του πραγματικού κόσμου

Τα έγγραφα, τα βιβλία και τα αρχεία συχνά αποθηκεύονται ως εικόνες. Η εξαγωγή του περιεχομένου τους για ψηφιακές ροές εργασίας, τη συμμόρφωση ή την έρευνα μπορεί να είναι αργή, δαπανηρή και πιθανό να κάνει λάθος αν γίνει με το χέρι.

Συνοπτική λύση

Το Aspose.OCR Scan to Text for .NET μετατρέπει τις εικόνες των εκτυπωμένων σελίδων σε χρήσιμο κείμενο, επεξεργασία μεμονωμένων στήλων, πολυθώνων και πολύπλοκων διατάξεων. Η ροή εργασίας είναι ιδανική για την ψηφιοποίηση συμβάσεων, βιβλίων, αρχείων και επιχειρηματικών εγγράφων για σύγχρονη χρήση.

Προϋποθέσεις

Βεβαιωθείτε ότι έχετε:

  • Visual Studio 2019 ή αργότερα
  • .NET 6.0 ή μεταγενέστερος (ή .Net Framework 4.6.2+)
  • Aspose.OCR για .NET από το NuGet
  • Βασικές γνώσεις C#
PM> Install-Package Aspose.OCR

Βήμα προς βήμα εφαρμογή

Βήμα 1: Εγκατάσταση και διαμόρφωση Aspose.OCR

Προσθήκη του πακέτου NuGet και αναφορά Aspose.OCR:

using Aspose.OCR;

Βήμα 2: Προσθέστε τις σαρωμένες εικόνες σας

Κατεβάστε ένα ή περισσότερα αρχεία εικόνας για επεξεργασία.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Βήμα 3: Ρυθμίστε τις ρυθμίσεις αναγνώρισης

Tune για τη γλώσσα του εγγράφου και τη διάταξη, όπως απαιτείται.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Βήμα 4: Ξεκινήστε τη διαδικασία αναγνώρισης

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Βήμα 5: Αποθηκεύστε ή επεξεργαστείτε το εκχύλισμα κειμένου

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Βήμα 6: Προσθήκη επεξεργασίας σφαλμάτων

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Βήμα 7: βελτιστοποίηση των διατάξεων εγγράφου

  • Για τα βιβλία ή τα άρθρα, χρησιμοποιήστε το DetectAreasMode.DOCUMENT ή δοκιμάστε τον DetectaAreaModa.AUTO
  • Προεπεξεργασία εικόνων (καλλιέργεια, αποχέτευση) για την καλύτερη ακρίβεια
  • Διαδικασία συσκευασίας για μεγάλα αρχεία
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Βήμα 8: Συμπληρωματικό παράδειγμα

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Χρήση περιπτώσεων και εφαρμογών

Σύμβαση και συμφωνία ψηφιοποίησης

Γρήγορη ψηφιοποίηση νομικών ή επιχειρηματικών εγγράφων για αναζήτηση, αρχειοθέτηση και ψηφιακές ροές εργασίας.

Επεξεργασία βιβλίου και αρχείων

Μετατρέψτε σελίδες βιβλίου ή ιστορικά αρχεία σε αναζησιμότητες, επεξεργασμένες μορφές.

Συμμόρφωση και εξαγωγή δεδομένων

Επιτρέπει αυτοματοποιημένες επιθεωρήσεις συμμόρφωσης, έλεγχο ή εξόρυξη κειμένου από έγγραφα κληρονομιάς.

Κοινές προκλήσεις και λύσεις

Πρόκληση 1: Σκάνες χαμηλής ποιότητας ή κείμενος κείμενο

Λύση: Χρησιμοποιήστε προ-διαχείριση ή βελτιώστε τις εικόνες για καλύτερη ακρίβεια OCR.

Challenge 2: Multi-Column ή σύνθετη διάταξη

Λύση: Προσαρμόστε το DetectAreasMode και δοκιμάστε για την καλύτερη διαχείριση της διάταξης.

Προκλήσεις 3: Η ψηφιοποίηση του Batch

Λύση: Χρησιμοποιήστε την επεξεργασία συσκευών και τη διαχείριση πόρων για θέσεις εργασίας μεγάλης κλίμακας.

Αξιολόγηση των επιδόσεων

  • Διαδικασία Batch για ταχύτητα και κλιμάκωση
  • Χρησιμοποιήστε ποιοτικές εικόνες πηγής
  • Διαθέστε αντικείμενα OCR μετά τη χρήση

שיטות עבודה מומלצות

  • Πάντα επικυρώστε το κείμενο πριν από την αυτοματοποίηση ή την αρχειοθέτηση
  • Χρησιμοποιήστε τις σωστές ρυθμίσεις αναγνώρισης για τον τύπο εγγράφου
  • Backup αρχική σάρωση για αναφορά
  • Τα αποτελέσματα της δοκιμής OCR σε δείγμα πριν από την παραγωγή

Προχωρημένα σενάρια

Σενάριο 1: Εξαγωγή πολυγλωσσικών εγγράφων

settings.Language = Language.French;

Σενάριο 2: Εξαγωγή στο JSON για ενσωμάτωση

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Συμπεράσματα

Το Aspose.OCR Scan to Text για το .NET είναι ο ταχύτερος τρόπος για να μετατρέψετε τις εικόνες και τα έγγραφα χαρτιού σε χρήσιμο, επεξεργαστικό κείμενο – ιδανικό για νομικά, ακαδημαϊκά ή επιχειρηματικά έργα.

Δείτε περισσότερα παραδείγματα και τεχνικές λεπτομέρειες στο Aspose.OCR για την αναφορά .NET API .

 Ελληνικά