Extract Media from Word Documents

Com extreure textos, imatges i metadades de documents de Word en .NET

L’extracció de text, imatges i metadades dels documents de Word és essencial per a l’anàlisi i el processament de documents. amb Aspose.Words per .NET, els desenvolupadors poden recuperar programàticament el contingut i les propietats del document en diversos casos d’ús, com ara la indicació, l’arxiu o la transformació del contingut.

Prerequisits

  • Install the .NET i SDK.
  • Afegir el paquet Aspose.Words NuGet:dotnet add package Aspose.Words
  • Preparació d’un document de paraula (document.docx) amb text, imatges i metadades.

Guia de pas a pas per extreure contingut dels arxius de Word

1.- Carregar el document de paraula

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Explicació: Aquest codi carrega el document de Word especificat en la memòria per a un processament posterior.

2.Extracte de text del document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Explicació: Aquest codi extraeix tot el contingut de text del document de Word carregat i l’imprimeix a la consola.

Extracció de metadades del document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Explicació: Aquest codi extraeix i imprimeix el títol, l’autor i les metadades de la data de creació del document Word.

4.Extracte d’imatges del document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Explicació: Aquest codi extracta totes les imatges del document de Word i les salva com a fitxers PNG en la direcció del projecte.

Prova de la solució

  • Ensure document.docx is in the project directory.
  • Executar el programa i comprovar:- Text extraït a la sortida de la consola.
  • Detalls de metadades impresos.
  • Imatges extraïdes guardades a la carpeta del projecte.

Com instal·lar i executar a les plataformes principals

Windows

  • Instal·la el temps de funcionament .NET i implementa l’aplicaci.
  • Testeu l’aplicació fent-la a través de la línia de comandes.

Linux

  • Instal·la el .NET Runtime.
  • Utilitza comandes terminals per executar l’aplicació o emmagatzemar-la en un servidor.

macos

  • Executar l’aplicació utilitzant Kestrel o implementar-la en un servei de núvol.

Problemes comuns i fixos

  • Imatges no extraïdes:- Assegureu-vos que el document conté imatges incorporades i no enllaçades externament.

  • Metadades perdudes:- Assegureu-vos que el document té propietats de metadades com el títol o el conjunt d’autor.

  • Processament de fitxers llargs:- Utilitza un enfocament eficient en la memòria, com ara el tractament de seccions específiques del document.

Amb aquest guia, podeu extreure programàticament contingut valuós dels documents de Word utilitzant Aspose.Words per .NET.

 Català