Extract Media from Word Documents

Sådan udveksler du tekst, billeder og metadata fra Word-dokumenter i .NET

Udvinding af tekst, billeder og metadata fra Word-dokumenter er afgørende for dokumentanalyse og behandling. Aspose.Words for .NET giver udviklere mulighed for at programmetisk indhente dokumentindhold og egenskaber til forskellige brugssituationer, såsom indeksering, arkivering eller indholdsdannelse.

Forudsætninger

  • Install the .Nettet SDK.
  • Tilføj Aspose.Words NuGet pakke:dotnet add package Aspose.Words
  • Forbered et orddokument (document.docx) med tekst, billeder og metadata.

Step-by-step guide til at udveksle indhold fra Word-filer

1.Hold orddokumentet

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Forklaring: Denne kode lader det angivne Word-dokument ind i hukommelsen for yderligere behandling.

2) Udvælg tekst fra dokumentet

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Forklaring: Denne kode udveksler alt tekstindhold fra det lastede Word-dokument og trykker det på konsollen.

Udvælg metadata fra dokumentet

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Forklaring: Denne kode udvider og trykker overskriften, forfatteren og oprettelsesdatoen metadata fra Word-dokumentet.

Udvælg billeder fra dokumentet

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Forklaring: Denne kode ekstrakter alle billeder fra Word-dokumentet og gemmer dem som PNG-filer i projektdiagrammet.

5 – Prøv løsningen

  • Ensure document.docx is in the project directory.
  • Gennemfør programmet og verificér:- Uddraget tekst i konsoludgangen.
  • Metadata detaljer udskrives.
  • Udvundet billeder gemt i projektmappen.

Hvordan at udstyre og køre på store platforme

Windows

  • Installér .NET runtime og implementer applikationen.
  • Test ansøgningen ved at køre den via kommandelinjen.

Linux

  • Installation af .NET runtime.
  • Brug terminalkommandoer til at køre appen eller opbevare den på en server.

af macOS

  • Udfør appen ved hjælp af Kestrel eller indsend den på en cloud-tjeneste.

Vanlige problemer og fixer

  • Billeder, der ikke er udvundet:- Sørg for, at dokumentet indeholder indbyggede billeder og ikke eksternt forbundet.

  • Metadata mangler:- Sørg for, at dokumentet har metadataegenskaber som titel eller Author set.

  • Længe filbehandling:- Brug en hukommelseseffektiv tilgang, som f.eks. behandling af specifikke sektioner af dokumentet.

Med denne guide kan du programmeret udveksle værdifuldt indhold fra Word-dokumenter ved hjælp af Aspose.Words for .NET.

 Dansk