Πώς να εξαγάγετε κείμενο από σαρωμένα PDFs με Aspose.OCR

Εξαγωγή κειμένου από σάρωση ή βάσει εικόνας PDF Τα αρχεία που χρησιμοποιούνται για να απαιτούν σύνθετες ροές εργασίας ή δαπανηρή χειροκίνητη εργασία. με το Aspose.OCR Scanned PDF to Text for .NET, μπορείτε να αυτοματοποιήσετε αυτή τη διαδικασία, μετατρέποντας τα PDF σε αναζησιμό και επεξεργαστικό κείμενο με λίγες γραμμές κώδικα.

Το πρόβλημα του πραγματικού κόσμου

Οι οργανισμοί συχνά λαμβάνουν συμβόλαια, εκθέσεις ή αρχεία όπως σάρωση PDFs. Η χειροκίνητη αντιγραφή του κειμένου ή η αναζήτηση μέσα σε αυτά τα έγγραφα είναι βαρετή και ελαττωματική, επιβραδύνει τη συμμόρφωση, την αρχειοθέτηση και τα έργα ψηφιακής μετατροπής.

Συνοπτική λύση

Το Aspose.OCR για το .NET σας επιτρέπει να συλλέξετε τις διαδικασίες των σάρωσης PDF - μετατρέποντάς τους σε κείμενο ή αναζησιμό PDF, καθιστώντας τις πληροφορίες προσβάσιμες, δεικτές και έτοιμες για ψηφιακές ροές εργασίας.

Προϋποθέσεις

Πριν ξεκινήσετε, βεβαιωθείτε ότι έχετε:

Visual Studio 2019 ή αργότερα
.NET 6.0 ή μεταγενέστερος (ή .NET Framework 4.6.2+)
Aspose.OCR για .NET από το NuGet
Βασικές γνώσεις C

PM> Install-Package Aspose.OCR

Βήμα προς βήμα εφαρμογή

Βήμα 1: Εγκατάσταση και διαμόρφωση Aspose.OCR

Προσθήκη του πακέτου NuGet και αναφορά Aspose.OCR:

using Aspose.OCR;

Βήμα 2: Προσθέστε τα Scanned PDF αρχεία σας

Δημιουργήστε ένα αντικείμενο OcrInput για την εισαγωγή PDF και προσθέστε τα scanned PDF αρχεία σας.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Βήμα 3: Ρυθμίστε τις ρυθμίσεις αναγνώρισης

Καθορίστε τη γλώσσα και άλλες ρυθμίσεις αναγνώρισης για να ταιριάζουν με τα έγγραφά σας.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Βήμα 4: Ξεκινήστε τη διαδικασία αναγνώρισης

Αναγνωρίστε το κείμενο από τα scanned PDFs σας:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Βήμα 5: Αποθήκευση ή εξαγωγή αναγνωρισμένου κειμένου

Εξάγετε το αναγνωρισμένο κείμενο σε αρχεία ή μετατρέψτε τα αποτελέσματα σε αναζησιμότα PDF.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Βήμα 6: Προσθήκη επεξεργασίας σφαλμάτων

Γράψτε την αναγνώριση σε ένα μπλοκ δοκιμής/συγκέντρωσης για τη σταθερότητα.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Βήμα 7: Βελτιστοποίηση για μεγάλα ή πολλαπλά αρχεία PDF

Επεξεργασία PDFs σελίδα ανά σελίδα για μεγάλα αρχεία
Χρησιμοποιήστε υψηλής ποιότητας σάρωση για τα καλύτερα αποτελέσματα
Παρόμοια διαδικασία συσκευασίας για μεγάλες συλλογές

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Βήμα 8: Συμπληρωματικό παράδειγμα εργασίας

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Χρήση περιπτώσεων και εφαρμογών

Ψηφιακό αρχείο

Μετατρέψτε ολόκληρες βιβλιοθήκες των σαρωμένων εγγράφων σε αναζητήσιμα, indexable αρχεία για τη συμμόρφωση και τη διαχείριση της γνώσης.

Νομική και Σύμβαση Διαχείρισης

Απομακρύνετε τις συμβατικές ρήτρες ή τους όρους από τα PDF για αναθεώρηση, αυτοματοποίηση ή ψηφιακή υπογραφή.

Streamlined αναζήτηση εγγράφων

Επιτρέπει την ταχεία αναζήτηση πλήρους κειμένου σε αρχεία, βάσεις γνώσεων ή φακέλους περιπτώσεων.

Κοινές προκλήσεις και λύσεις

Πρόκληση 1: Χαμηλή ποιότητα ή αποσυνδεδεμένη σάρωση

Λύση: Χρησιμοποιήστε προ-διαχείρισης φίλτρα και υψηλής ποιότητας σάρωση όπου είναι δυνατόν.

Προκλήσεις 2: Πολυγλωσσικά PDFs

Λύση: Ρυθμίστε τη γλώσσα στις ρυθμίσεις αναγνώρισης ή τη διαδικασία με πολλαπλές επιλογές γλώσσας.

Προκλήσεις 3: Πολύ μεγάλα αρχεία PDF

Λύση: Διαχείριση σε πακέτα ή ανά σελίδα, και παρακολούθηση της χρήσης μνήμης.

Αξιολόγηση των επιδόσεων

Χρησιμοποιήστε το βέλτιστο DPI (300+) για σαρωμένα PDF
Διαδικασία Batch για την καλύτερη διέλευση
Διαθέστε αντικείμενα OCR και κλειστά χειριστήρια αρχείων

שיטות עבודה מומלצות

Επιβεβαιώστε την παραγωγή OCR πριν από περαιτέρω αυτοματοποίηση
Οργανώστε και αντιγράψτε τα αρχικά αρχεία PDF
Χρησιμοποιήστε το σωστό SaveFormat για τη ροή εργασίας σας
Ενημερώστε τακτικά το Aspose.OCR για νέες λειτουργίες PDF

Προχωρημένα σενάρια

Σενάριο 1: Αποκτήστε μόνο συγκεκριμένες σελίδες από ένα PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Σενάριο 2: Εξαγωγή σε πολλαπλές μορφές

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Συμπεράσματα

Το Aspose.OCR για το .NET σας επιτρέπει να μετατρέψετε τα scanned PDF σε ενεργοποιημένα κείμενα και αρχεία αναζήτησης - εξαλείφοντας την εγχειρίδια εισόδου και καθιστώντας τις πληροφορίες προσβάσιμες σε ολόκληρη την οργάνωση σας.

Για περισσότερες λεπτομέρειες και παραδείγματα, δείτε το Aspose.OCR για την αναφορά .NET API .