Extract Media from Word Documents

# Come Estrarre Testo, Immagini e Metadati da Documenti Word in .NET

L’extraction de texte, d’images et de métadonnées de documents Word est essentielle pour l’analyse et le traitement de documents. Aspose.Words pour .NET, les développeurs peuvent programmatiquement récupérer le contenu et les propriétés du document pour différents cas d’utilisation, tels que l’indexation, l’archivage ou la transformation du contenu.

Principaux

  • Installez le Le .NET SDK .
  • Ajoutez le paquet Aspose.Words NuGet :dotnet add package Aspose.Words
  • Préparer un document (document.docxavec le texte, les images et les métadonnées.

Guide étape par étape pour extraire du contenu des fichiers Word

1 – Téléchargez le document Word

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Explication: Ce code charge le document Word spécifié dans la mémoire pour un traitement ultérieur.

2. extraire le texte du document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Explication: Ce code extrait tout le contenu texte du document Word chargé et l’imprime sur la console.

Extrait des métadonnées du document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Explication: Ce code extrait et imprime le titre, l’auteur et les métadonnées de la date de création du document Word.

4. extraire des images du document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Explication: Ce code extrait toutes les images du document Word et les stocke en tant que fichiers PNG dans le catalogue de projet.

5 – Testez la solution

  • Sécurité document.docx Il est dans la directory du projet.
  • Exécuter le programme et vérifier :- Texte extrait dans la console.
  • Les détails métadonnées imprimés.
  • Images extraits sauvegardés dans le dossier de projet.

Comment déployer et fonctionner sur des plateformes majeures

Windows

  • Installez le temps de fonctionnement .NET et déploiez l’application.
  • Testez l’application en l’exécutant via la ligne de commande.

Linux

  • Installer le temps de fonctionnement .NET.
  • Utilisez les commandes terminales pour exécuter l’application ou l’héberger sur un serveur.

Le macOS

  • Exécuter l’application en utilisant Kestrel ou le déployer sur un service cloud.

Problèmes communs et fixations

  • Images non extraits:- Assurez-vous que le document contient des images intégrées et non externellement liées.

  • Métadonnées manquantes:- Vérifiez que le document a des propriétés de métadonnées telles que le titre ou l’autor.

  • Traitement de fichiers longs:- Utilisez une approche efficace en mémoire, telle que le traitement de sections spécifiques du document.

Avec ce guide, vous pouvez programmatiquement extraire du contenu précieux des documents Word en utilisant Aspose.Words pour .NET.

 Français