Πώς να εξαγάγετε κείμενο από σαρωμένα PDFs με Aspose.OCR
Η εξόρυξη κειμένου από σάρωση ή βάσει εικόνας αρχεία PDF που χρησιμοποιούνται για να απαιτούν σύνθετες ροές εργασίας ή δαπανηρή χειροκίνητη εργασία. Με το Aspose.OCR Scanned PDF to Text for .NET, μπορείτε να αυτοματοποιήσετε αυτή τη διαδικασία, μετατρέποντας τα PDF σε αναζησιμό και επεξεργαστικό κείμενο με λίγες γραμμές κώδικα.
Το πρόβλημα του πραγματικού κόσμου
Οι οργανισμοί συχνά λαμβάνουν συμβόλαια, εκθέσεις ή αρχεία όπως σάρωση PDFs. Η χειροκίνητη αντιγραφή του κειμένου ή η αναζήτηση μέσα σε αυτά τα έγγραφα είναι βαρετή και ελαττωματική, επιβραδύνει τη συμμόρφωση, την αρχειοθέτηση και τα έργα ψηφιακής μετατροπής.
Συνοπτική λύση
Το Aspose.OCR για το .NET σας επιτρέπει να συλλέξετε τις διαδικασίες των σάρωσης PDF - μετατρέποντάς τους σε κείμενο ή αναζησιμό PDF, καθιστώντας τις πληροφορίες προσβάσιμες, δεικτές και έτοιμες για ψηφιακές ροές εργασίας.
Προϋποθέσεις
Πριν ξεκινήσετε, βεβαιωθείτε ότι έχετε:
- Visual Studio 2019 ή αργότερα
- .NET 6.0 ή μεταγενέστερος (ή .Net Framework 4.6.2+)
- Aspose.OCR για .NET από το NuGet
- Βασικές γνώσεις C#
PM> Install-Package Aspose.OCR
Βήμα προς βήμα εφαρμογή
Βήμα 1: Εγκατάσταση και διαμόρφωση Aspose.OCR
Προσθήκη του πακέτου NuGet και αναφορά Aspose.OCR:
using Aspose.OCR;
Βήμα 2: Προσθέστε τα Scanned PDF αρχεία σας
Δημιουργήστε ένα αντικείμενο OcrInput για την εισαγωγή PDF και προσθέστε τα scanned PDF αρχεία σας.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Βήμα 3: Ρυθμίστε τις ρυθμίσεις αναγνώρισης
Καθορίστε τη γλώσσα και άλλες ρυθμίσεις αναγνώρισης για να ταιριάζουν με τα έγγραφά σας.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Βήμα 4: Ξεκινήστε τη διαδικασία αναγνώρισης
Αναγνωρίστε το κείμενο από τα scanned PDFs σας:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Βήμα 5: Αποθήκευση ή εξαγωγή αναγνωρισμένου κειμένου
Εξάγετε το αναγνωρισμένο κείμενο σε αρχεία ή μετατρέψτε τα αποτελέσματα σε αναζησιμότα PDF.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Βήμα 6: Προσθήκη επεξεργασίας σφαλμάτων
Γράψτε την αναγνώριση σε ένα μπλοκ δοκιμής/συγκέντρωσης για τη σταθερότητα.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Βήμα 7: Βελτιστοποίηση για μεγάλα ή πολλαπλά αρχεία PDF
- Επεξεργασία PDFs σελίδα ανά σελίδα για μεγάλα αρχεία
- Χρησιμοποιήστε υψηλής ποιότητας σάρωση για τα καλύτερα αποτελέσματα
- Παρόμοια διαδικασία συσκευασίας για μεγάλες συλλογές
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Βήμα 8: Συμπληρωματικό παράδειγμα εργασίας
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Χρήση περιπτώσεων και εφαρμογών
Ψηφιακό αρχείο
Μετατρέψτε ολόκληρες βιβλιοθήκες των σαρωμένων εγγράφων σε αναζητήσιμα, indexable αρχεία για τη συμμόρφωση και τη διαχείριση της γνώσης.
Νομική και Σύμβαση Διαχείρισης
Απομακρύνετε τις συμβατικές ρήτρες ή τους όρους από τα PDF για αναθεώρηση, αυτοματοποίηση ή ψηφιακή υπογραφή.
Streamlined αναζήτηση εγγράφων
Επιτρέπει την ταχεία αναζήτηση πλήρους κειμένου σε αρχεία, βάσεις γνώσεων ή φακέλους περιπτώσεων.
Κοινές προκλήσεις και λύσεις
Πρόκληση 1: Χαμηλή ποιότητα ή αποσυνδεδεμένη σάρωση
Λύση: Χρησιμοποιήστε προ-διαχείρισης φίλτρα και υψηλής ποιότητας σάρωση όπου είναι δυνατόν.
Προκλήσεις 2: Πολυγλωσσικά PDFs
** Λύση:** Ρυθμίστε τη γλώσσα στις ρυθμίσεις αναγνώρισης ή τη διαδικασία με πολλαπλές επιλογές γλώσσας.
Προκλήσεις 3: Πολύ μεγάλα αρχεία PDF
Λύση: Διαχείριση σε πακέτα ή ανά σελίδα, και παρακολούθηση της χρήσης μνήμης.
Αξιολόγηση των επιδόσεων
- Χρησιμοποιήστε το βέλτιστο DPI (300+) για σαρωμένα PDF
- Διαδικασία Batch για την καλύτερη διέλευση
- Διαθέστε αντικείμενα OCR και κλειστά χειριστήρια αρχείων
שיטות עבודה מומלצות
- Επιβεβαιώστε την παραγωγή OCR πριν από περαιτέρω αυτοματοποίηση
- Οργανώστε και αντιγράψτε τα αρχικά αρχεία PDF
- Χρησιμοποιήστε το σωστό SaveFormat για τη ροή εργασίας σας
- Ενημερώστε τακτικά το Aspose.OCR για νέες λειτουργίες PDF
Προχωρημένα σενάρια
Σενάριο 1: Αποκτήστε μόνο συγκεκριμένες σελίδες από ένα PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Σενάριο 2: Εξαγωγή σε πολλαπλές μορφές
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Συμπεράσματα
Το Aspose.OCR για το .NET σας επιτρέπει να μετατρέψετε τα scanned PDF σε ενεργοποιημένα κείμενα και αρχεία αναζήτησης - εξαλείφοντας την εγχειρίδια εισόδου και καθιστώντας τις πληροφορίες προσβάσιμες σε ολόκληρη την οργάνωση σας.
Για περισσότερες λεπτομέρειες και παραδείγματα, δείτε το Aspose.OCR για την αναφορά .NET API .