כיצד לחלץ טקסט, תמונות ומטא-נתונים מקבצי Word ב-.NET
Η εξαγωγή κειμένου, εικόνων και μεταδεδομένων από έγγραφα του Word είναι απαραίτητη για την ανάλυση και την επεξεργασία εγγράφων. Aspose.Words για .NET, οι προγραμματιστές μπορούν να ανακτήσουν προγραμματικά το περιεχόμενο και τις ιδιότητες του εγγράφου για διάφορες περιπτώσεις χρήσης, όπως η ενσωμάτωση, η αρχειοθέτηση ή η μετατροπή περιεχομένου.
Προϋποθέσεις
- Εγκαταστήστε το Το .NET SDK .
- Προσθέστε το πακέτο Aspose.Words NuGet:
dotnet add package Aspose.Words
- Ετοιμάστε ένα έγγραφο (
document.docx
με κείμενο, εικόνες και μεταδεδομένα.
Βήμα προς βήμα Οδηγός για την εξαγωγή περιεχομένου από τα αρχεία του Word
1) Κατεβάστε το έγγραφο λέξης
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
Η εξήγηση: Αυτός ο κώδικας φορτώνει το συγκεκριμένο έγγραφο του Word στη μνήμη για περαιτέρω επεξεργασία.
2) Εξαγωγή κειμένου από το έγγραφο
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
Η εξήγηση: Αυτός ο κώδικας εξάγει όλο το περιεχόμενο του κειμένου από το φορτισμένο έγγραφο του Word και το εκτυπώνει στην κονσόλα.
Εξαγωγή μεταδεδομένων από το έγγραφο
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
Η εξήγηση: Αυτός ο κώδικας εξάγει και εκτυπώνει τα μεταδεδομένα τίτλου, συγγραφέα και ημερομηνίας δημιουργίας από το έγγραφο του Word.
Εξαγωγή εικόνων από το έγγραφο
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
Η εξήγηση: Αυτός ο κώδικας εξάγει όλες τις εικόνες από το έγγραφο του Word και τις αποθηκεύει ως αρχεία PNG στο δελτίο έργου.
5) Δοκιμάστε τη λύση
- Ασφάλεια
document.docx
Βρίσκεται στη Διεύθυνση Προγράμματος. - Εκτελέστε το πρόγραμμα και επαληθεύστε:- Εξαγωγή κειμένου στην παραγωγή της κονσόλας.
- Οι λεπτομέρειες των μεταδεδομένων εκτυπωθούν.
- Εξαγωγή εικόνων που αποθηκεύονται στο φάκελο του έργου.
Πώς να αναπτύξετε και να τρέξετε σε μεγάλες πλατφόρμες
Windows
- Εγκαταστήστε το .NET runtime και εκτελέστε την εφαρμογή.
- Δοκιμάστε την εφαρμογή τρέχοντάς την μέσω της γραμμής εντολών.
Linux
- Εγκαταστήστε το .NET runtime.
- Χρησιμοποιήστε τερματικές εντολές για να εκτελέσετε την εφαρμογή ή να την φιλοξενήσετε σε έναν διακομιστή.
ΜΑΚΟΣ
- Εκτελέστε την εφαρμογή χρησιμοποιώντας το Kestrel ή εκτελέστε την σε μια υπηρεσία cloud.
Κοινά ζητήματα και διορθώσεις
Φωτογραφίες που δεν έχουν αφαιρεθεί:- Βεβαιωθείτε ότι το έγγραφο περιέχει ενσωματωμένες εικόνες και όχι εξωτερικά συνδεδεμένες.
Χάθηκαν τα δεδομένα:- Βεβαιωθείτε ότι το έγγραφο έχει ιδιότητες μεταδεδομένων, όπως ο τίτλος ή το σύνολο συγγραφέα.
Μεγάλη επεξεργασία αρχείων:- Χρησιμοποιήστε μια προσέγγιση αποδοτικής μνήμης, όπως η επεξεργασία συγκεκριμένων τμημάτων του εγγράφου.
Με αυτόν τον οδηγό, μπορείτε να εξάγετε προγραμματικά πολύτιμο περιεχόμενο από έγγραφα του Word χρησιμοποιώντας το Aspose.Words για .NET.