Extract Media from Word Documents

Hogyan lehet kivonni a szöveget, a képeket és a metaadatokat a Word dokumentumok .NET

A Word dokumentumokból származó szöveg, képek és metaadatok kivonása alapvető fontosságú az elemzéshez és feldolgozáshoz. Aspose.Words for .NET segítségével a fejlesztők szoftveres módon visszanyerhetik a Dokumentum tartalmát és tulajdonságait a különböző felhasználási esetekben, például az indexeléshez, az archiváláshoz vagy a tartalom átalakításához.

előfeltételek

  • Install the Az SDK.
  • Adja meg az Aspose.Words NuGet csomagot:dotnet add package Aspose.Words
  • Készítse el a dokumentumot (document.docxA szöveg, a képek és a metadata.

Lépésről lépésre útmutató a tartalom kivonására a Word-fájlokból

1. Töltse le a Word dokumentumot

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Elmagyarázás: Ez a kód feltölti a kijelölt Word-dokumentumot a memóriába a további feldolgozáshoz.

2. A szöveg kivonása a dokumentumból

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Elmagyarázás: Ez a kód kivonja az összes szöveges tartalmat a feltöltött Word-dokumentumból, és nyomtatja a konzolra.

3. Metadata kivonása a dokumentumból

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Elmagyarázás: Ez a kód kivonja és kinyomtatja a címet, a szerzőt és a létrehozási dátumot a Word dokumentumból.

4. Képek kivonása a dokumentumból

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Elmagyarázás: Ez a kód kivonja az összes képet a Word-dokumentumból, és PNG fájlként tárolja őket a projekt directory-ban.

5. A megoldás tesztelése

  • Ensure document.docx is in the project directory.
  • Végezze el a programot és ellenőrizze:- A konzol kimenetelében készült szöveg.
  • Metadata részletek nyomtatott.
  • Kivonult képek mentett a projektmappában.

Hogyan kell telepíteni és futtatni a főbb platformokon

Windows

  • Telepítse a .NET futtatási időt, és telepítse az alkalmazást.
  • Ellenőrizze az alkalmazást a parancsvonalon keresztül futtatva.

Linux

  • Telepítse a .NET futtatási időt.
  • Használja a terminális parancsokat az alkalmazás végrehajtásához vagy tárolásához egy szerveren.

macos

  • Végezze el az alkalmazást a Kestrel használatával vagy telepítse felhőszolgáltatáson.

Közös problémák és megoldások

  • Nem készült képek:- Győződjön meg róla, hogy a dokumentum tartalmazza a beágyazott képeket, és nem külsőleg kapcsolódó.

  • a hiányzó adatokat tartalmazza:- Győződjön meg róla, hogy a dokumentum metadata tulajdonságokkal rendelkezik, mint például a cím vagy a szerző.

  • Hosszú fájl feldolgozása:- Használjon memória-hatékony megközelítést, például a dokumentum konkrét részeinek feldolgozását.

Ezzel az útmutatóval programozhat értékes tartalmat a Word dokumentumokból az Aspose.Words for .NET használatával.

 Magyar