Extract Media from Word Documents

Kaip ištraukti tekstą, vaizdus ir metaduomenis iš "Word" dokumentų .NET

Teksto, vaizdų ir metaduomenų ekstrakcija iš “Word” dokumentų yra būtina dokumentams analizuoti ir apdoroti. Aspose.Words for .NET leidžia kūrėjams programinėmis priemonėmis gauti dokumentą ir savybes įvairiems naudojimo atvejams, pavyzdžiui, indeksavimui, archyvuojant arba turinio transformavimui.

Prerequisites

  • Įdiegti į Žymės: SDK .
  • Pridėti Aspose.Words NuGet paketą:dotnet add package Aspose.Words
  • Pateikite žodžio dokumentą (document.docx3) su tekstais, vaizdais ir metaduomenimis.

Žingsnis po žingsnio vadovas, kaip pašalinti turinį iš “Word” failų

1 Atsisiųskite žodžio dokumentą

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

** paaiškinimas:** Šis kodas įkeliamas į atmintį nurodytą “Word” dokumentą tolesniam apdorojimui.

2.Teksto išvestis iš dokumento

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

** paaiškinimas:** Šis kodas išgauna visą teksto turinį iš įkeltos „Word“ dokumentų ir spausdina jį į konsolę.

Metadatos išvestos iš dokumento

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Paaiškinimas: Šis kodas ištraukia ir spausdina pavadinimą, autorių ir kūrimo datą metaduomenis iš žodžio dokumento.

4.Išduoti nuotraukas iš dokumento

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Paaiškinimas: Šis kodas ištraukia visus vaizdus iš “Word” dokumento ir išsaugo juos kaip PNG failus projekto direktorijoje.

5. išbandyti sprendimą

  • Ensure document.docx Jis yra projekto direktoriuje.
  • Atlikite programą ir patikrinkite:- Išimtas tekstas į konsolės išleidimą.
  • Metodiniai duomenys spausdinti.
  • Išimtos nuotraukos, išsaugotos projekto aplinkoje.

Kaip įdiegti ir paleisti pagrindinėse platformose

Windows

  • Įdiegti .NET paleidimo laiką ir paleisti programą.
  • Išbandykite programą paleidžiant ją per komandos liniją.

Linux

  • Įdiegti .NET paleidimo laiką.
  • Naudokite terminalines komandas, kad galėtumėte vykdyti programą arba prižiūrėti ją serveryje.

Mėlyna

  • Vykdykite programą naudodami „Kestrel“ arba paleiskite ją į debesijos paslaugą.

Bendros problemos ir fiksacijos

  • Nuotraukos, kurios neįtrauktos:- Įsitikinkite, kad dokumente yra įterptų vaizdų, o ne išorės susietų.

  • Metadatos trūksta- Įsitikinkite, kad dokumentas turi metaduomenų savybes, tokias kaip pavadinimas ar autorius.

  • Didžioji failų apdorojimas :- Naudokite atminties efektyvaus požiūrio, pavyzdžiui, apdoroti konkrečius dokumentų skyrius.

Naudodamiesi šiuo vadovu, galite programuojamai ištraukti vertingą turinį iš “Word” dokumentų naudojant “Aspose.Words” .NET.

 Lietuvių