# Come Estrarre Testo, Immagini e Metadati da Documenti Word in .NET
L’estrazione di testo, immagini e metadati dai documenti di Word è essenziale per l’analisi e il trattamento dei documenti. Aspose.Words per .NET, gli sviluppatori possono programmaticamente recuperare il contenuto del documento e le proprietà per vari casi di utilizzo, come l’indicazione, l’archiviazione o la trasformazione del contenuto.
Prerequisiti
- Installare il di .NET SDK .
- Aggiungi il pacchetto Aspose.Words NuGet:
dotnet add package Aspose.Words
- Scopri un documento di testo (
document.docx
) con testo, immagini e metadati.
Guida passo dopo passo per estrarre contenuti dai file di Word
1 – Caricare il documento di parola
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
Esplicazione: Questo codice carica il documento Word specificato nella memoria per ulteriore elaborazione.
2 – Rimuovere il testo dal documento
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
Esplicazione: Questo codice extrage tutto il contenuto del testo dal documento Word caricato e lo stamperà sulla console.
Rimuovere i metadati dal documento
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
Esplicazione: Questo codice estrae e stampa il titolo, l’autore e i metadati della data di creazione dal documento Word.
Rimuovere le immagini dal documento
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
Esplicazione: Questo codice estrae tutte le immagini dal documento Word e li salva come file PNG nel directory del progetto.
5 – Prova la soluzione
- Assicurazione
document.docx
Si trova nella direzione del progetto. - Eseguire il programma e verificare:- Testo estratto nella console di uscita.
- Dettagli metadati stampati.
- Immagini estratti salvati nella cartella di progetto.
Come disegnare e eseguire su piattaforme principali
Windows
- Installa il .NET Runtime e implementa l’applicazione.
- Testare l’applicazione eseguendola attraverso la linea di comando.
di Linux
- Installare il .NET runtime.
- Utilizzare comandi terminali per eseguire l’applicazione o lo ospitare su un server.
macOS
- Eseguire l’applicazione utilizzando Kestrel o implementarla su un servizio cloud.
Problemi e fissazioni comuni
Immagini non pubblicate:- Assicurarsi che il documento contiene immagini incorporate e non quelle esternamente collegate.
Metadati mancanti:- Verificare che il documento abbia proprietà metadati come Titolo o Autore set.
Il processo di elaborazione dei file:- Utilizzare un approccio efficiente della memoria, ad esempio il trattamento di sezioni specifiche del documento.
Con questa guida, è possibile estrarre in modo programmatico contenuti preziosi dai documenti di Word utilizzando Aspose.Words per .NET.