Extract Media from Word Documents

# Come Estrarre Testo, Immagini e Metadati da Documenti Word in .NET

L’estrazione di testo, immagini e metadati dai documenti di Word è essenziale per l’analisi e il trattamento dei documenti. Aspose.Words per .NET, gli sviluppatori possono programmaticamente recuperare il contenuto del documento e le proprietà per vari casi di utilizzo, come l’indicazione, l’archiviazione o la trasformazione del contenuto.

Prerequisiti

  • Installare il di .NET SDK .
  • Aggiungi il pacchetto Aspose.Words NuGet:dotnet add package Aspose.Words
  • Scopri un documento di testo (document.docx) con testo, immagini e metadati.

Guida passo dopo passo per estrarre contenuti dai file di Word

1 – Caricare il documento di parola

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Esplicazione: Questo codice carica il documento Word specificato nella memoria per ulteriore elaborazione.

2 – Rimuovere il testo dal documento

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Esplicazione: Questo codice extrage tutto il contenuto del testo dal documento Word caricato e lo stamperà sulla console.

Rimuovere i metadati dal documento

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Esplicazione: Questo codice estrae e stampa il titolo, l’autore e i metadati della data di creazione dal documento Word.

Rimuovere le immagini dal documento

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Esplicazione: Questo codice estrae tutte le immagini dal documento Word e li salva come file PNG nel directory del progetto.

5 – Prova la soluzione

  • Assicurazione document.docx Si trova nella direzione del progetto.
  • Eseguire il programma e verificare:- Testo estratto nella console di uscita.
  • Dettagli metadati stampati.
  • Immagini estratti salvati nella cartella di progetto.

Come disegnare e eseguire su piattaforme principali

Windows

  • Installa il .NET Runtime e implementa l’applicazione.
  • Testare l’applicazione eseguendola attraverso la linea di comando.

di Linux

  • Installare il .NET runtime.
  • Utilizzare comandi terminali per eseguire l’applicazione o lo ospitare su un server.

macOS

  • Eseguire l’applicazione utilizzando Kestrel o implementarla su un servizio cloud.

Problemi e fissazioni comuni

  • Immagini non pubblicate:- Assicurarsi che il documento contiene immagini incorporate e non quelle esternamente collegate.

  • Metadati mancanti:- Verificare che il documento abbia proprietà metadati come Titolo o Autore set.

  • Il processo di elaborazione dei file:- Utilizzare un approccio efficiente della memoria, ad esempio il trattamento di sezioni specifiche del documento.

Con questa guida, è possibile estrarre in modo programmatico contenuti preziosi dai documenti di Word utilizzando Aspose.Words per .NET.

 Italiano