Εισαγωγέας κειμένου Plugin για Aspose.PDF
Το Aspose.PDF Text Extractor Plugin για .NET επιτρέπει στους προγραμματιστές να εξάγουν περιεχόμενο κειμένου - δομημένο, επίπεδη ή as-is - από τα αρχεία PDF. Με τρεις τρόπους εξαγωγής, είναι ιδανικό για μετατροπή εγγράφων, εξόρυξη δεδομένων, βελτιώσεις προσβασιμότητας και πολλά άλλα.
**Τελευταία άρθρα *
Aspose.PDF κείμενο εξόρυξη Plugin Κλειδιά χαρακτηριστικά
Πολλοί τρόποι εξόρυξηςΕξάγετε το κείμενο ως καθαρό (τυποποιημένο), πρώιμο (όπως είναι), ή επίπεδη (καθαρό) για μέγιστη ευελιξία.
- Παραγωγή PDF Batch*Προσθήκη πολλαπλών PDFs για ταυτόχρονη εξόρυξη και ευέλικτες ροές εργασίας.
- Απλή ενσωμάτωση .NET*Straightforward API – προσθέστε σε οποιοδήποτε έργο C# ή .NET για γρήγορη εκτέλεση.
Για να ξεκινήσετε με το Aspose.PDF Text Extractor Plugin
Εγκαταστήστε το Aspose.PDF για .NETΠροσθήκη μέσω NuGet ή λήψη συλλογών στη λύση .NET σας.
Διαγράψτε την άδειά σαςΕνεργοποιήστε για απεριόριστη επεξεργασία και υποστήριξη.
Επιλογές εξαγωγής διαμόρφωσηςΧρήση
TextExtractor
καιTextExtractorOptions
Καθορίστε τη λειτουργία εξόρυξης όπως θέλετε (Pure, Raw, Plain).Διαδικασία και επιστροφή κειμένουΕκτελέστε τα αποτελέσματα εξόρυξης και πρόσβασης μέσω της συλλογής δεξαμενών αποτελέσματος.
** Παράδειγμα: Εξαγωγή κειμένου από ένα PDF (C#)**
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
** Παράδειγμα: Εκχύλισμα κειμένου από πολλαπλά PDF**
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
** Χρησιμοποιήστε περιπτώσεις και επέκταση**
- PDF σε TXT Μετατροπή: Αυτόματη μετατροπή των PDF σε απλό κείμενο για την ανίχνευση, την αναζήτηση ή τα αρχεία.
- Διαχείριση δεδομένων: Εξάγετε δεδομένα πίνακα, τιμολόγια ή φόρμες για περαιτέρω επεξεργασία ή ανάλυση.
- Διαθεσιμότητα: Προετοιμάστε αναγνωρίσιμο περιεχόμενο για αναγνώστες οθόνης ή εναλλακτικές μορφές.
- Batch επεξεργασία: Χρησιμοποιήστε τρόπους εξόρυξης για συγκεκριμένες ροές εργασίας (π.χ. προ-αποποίηση OCR, αναγνώριση οντότητας).
Για προηγμένη εξόρυξη – όπως η επεξεργασία κρυπτογραφημένων PDF ή η εξατομικευμένη έκδοση κειμένου – αναφέρετε στην επίσημη αναφορά API.
* Οι καλύτερες πρακτικές *
- Πάντα επιλέξτε τη λειτουργία εξόρυξης που ταιριάζει στις ανάγκες παραγωγής σας (σχεδιασμός, πρώιμο ή καθαρό).
- Για τα μεγάλα σύνολα εγγράφων, η διαδικασία συσκευασίας για να μεγιστοποιήσει τη διείσδυση και να ελαχιστοποιηθεί η χειροκίνητη προσπάθεια.
- Τα αποτελέσματα εκχύλισης δοκιμών χρησιμοποιούνται σε πραγματικά PDF για να διασφαλιστεί η ακρίβεια των δεδομένων.
**Σχετικά με τα στοιχεία: *