Πώς να εξαγάγετε κείμενο από σαρωμένα PDFs στο .NET χρησιμοποιώντας Aspose.OCR

Πώς να εξαγάγετε κείμενο από σαρωμένα PDFs στο .NET χρησιμοποιώντας Aspose.OCR

Τα Scaned PDFs είναι συχνά δύσκολο να δουλέψουν μαζί τους, επειδή είναι ουσιαστικά απλά εικόνες κειμένου. Η μετατροπή αυτών των εικόνων σε αναζησιμότα, επεξεργαστικά έγγραφα κειμένου ανοίγει έναν κόσμο δυνατοτήτων για τη διαχείριση εγγράφων και την προσβασιμότητα περιεχομένου. Με Aspose.OCR για .NET, μπορείτε να μετατρέψετε τα Scaned PDFs σε πλήρως αναζησιμότα έγγραφα ενώ διατηρείτε τις αρχικές εικόνες.

Γιατί το OCR (Optical Character Recognition) Σημαντικό για τα Scanned PDFs

  • Εξαγωγή δεδομένων:- Το OCR σας επιτρέπει να μετατρέψετε το σαρωμένο κείμενο σε μηχάνημα-διαβάσιμα δεδομένα, τα οποία μπορούν να επεξεργαστούν και να ενσωματωθούν.

  • Δυνατότητα αναζήτησης:- Με τη μετατροπή σάρωσης PDF σε εγγράφους που μπορούν να αναζητηθούν, μπορείτε γρήγορα να βρείτε τις σχετικές πληροφορίες χωρίς να κάνετε χειροκίνητη αναζήτηση μέσω σελίδων.

  • Βελτίωση της παραγωγικότητας:- Εξοικονομήστε χρόνο αυτοματοποιώντας τη μετατροπή των σαρωμένων εγγράφων σε επεξεργαζόμενες μορφές όπως το Word ή το Excel.

Προϋποθέσεις: Ρυθμίσεις για το Scanned PDF Text Extraction

Πριν ξεκινήσετε την εξόρυξη κειμένου από τα scanned PDFs, βεβαιωθείτε ότι τα ακόλουθα βήματα είναι πλήρη:

  • Εγκατάσταση Aspose.OCR για .NET:- Προσθήκη Aspose.OCR στο έργο σας χρησιμοποιώντας το NuGet: dotnet add package Aspose.OCR

  • Αποκτήστε άδεια μετρήσεως:- Ρυθμίστε τη μετρημένη άδεια για να αποκλείσετε όλα τα χαρακτηριστικά της βιβλιοθήκης Aspose.OCR χρησιμοποιώντας SetMeteredKey().

  • Προετοιμάστε τα Scanned PDFs σας:- Βεβαιωθείτε ότι τα scanned PDFs σας είναι υψηλής ποιότητας. καλύτερα αποτελέσματα ποιότητας σε ακριβέστερη OCR.

Βήμα προς βήμα Οδηγός: Εξαγωγή κειμένου από σαρωμένα PDFs

Βήμα 1: Εγκατάσταση της απαραίτητης βιβλιοθήκης

Ξεκινήστε με την εγκατάσταση Aspose.OCR για .NET στο έργο σας. μπορείτε να το κάνετε αυτό απευθείας από το NuGet.

dotnet add package Aspose.OCR

Βήμα 2: Ρυθμίστε τα κλειδιά άδειας

Πριν προχωρήσετε, ρυθμίστε την άδεια σας για Aspose.OCR για να αποκλείσετε όλα τα χαρακτηριστικά.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Βήμα 3: Κατεβάστε το Scanned PDF στο αντικείμενο εισόδου OCR

Θα χρειαστεί να φορτώσετε το scanned PDF στο OcrInput Aspose.OCR υποστηρίζει τη σάρωση πολλαπλών σελίδων ενός PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Βήμα 4: Επεξεργασία του Scanned PDF χρησιμοποιώντας τον κινητήρα OCR

Με το PDF φορτισμένο, μεταφέρετε το στο Aspose OCR κινητήρα για αναγνώριση.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Βήμα 5: Ξεκινήστε το αναγνωρισμένο κείμενο ή αποθηκεύστε το

Μόλις η μηχανή OCR επεξεργάζεται το PDF, μπορείτε είτε να εκδώσετε το αναγνωρισμένο κείμενο απευθείας ή να το αποθηκεύσετε σε ένα αρχείο.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Βήμα 6: Δοκιμή και βελτιστοποίηση των αποτελεσμάτων OCR

Μετά την εξόρυξη του κειμένου, δοκιμάστε την έκδοση για ακρίβεια.Εάν είναι απαραίτητο, μπορείτε να επικολλήσετε τις ρυθμίσεις OCR για να βελτιώσετε τα αποτελέσματα για διαφορετικές διατάξεις εγγράφου.

Κοινά ζητήματα και διορθώσεις

Μειωμένη ακρίβεια OCR

  • Λύση: Βεβαιωθείτε ότι η ποιότητα του σάρωσης PDF είναι υψηλή. Χρησιμοποιήστε σάρωση υψηλής ανάλυσης για τη βελτίωση της ακρίβειας αναγνώρισης.

2.Οι μη υποστηριζόμενες γραμμές

  • Λύση: Παρέχετε τη σωστή γλωσσική ρύθμιση στις επιλογές OCR για την ενίσχυση της αναγνώρισης για μη λατινικούς χαρακτήρες.

3) Χαμηλή απόδοση

  • Λύση: Διακόψτε το PDF σε μικρότερα κομμάτια ή σελίδες για ταχύτερη επεξεργασία, ειδικά για μεγάλα έγγραφα.
 Ελληνικά