Extract Media from Word Documents

Sådan udtrækkes tekst, billeder og metadata fra Word-dokumenter i .NET

Udtræk af tekst, billeder og metadata fra Word-dokumenter er essentielt for dokumentanalyse og -behandling. Med Aspose.Words for .NET, kan udviklere programmatisk hente dokumentindhold og -egenskaber til forskellige anvendelser, såsom indeksering, arkivering eller indholdstransformation.

Se også: Hvis dit mål er at udtrække indhold for søgemaskineindeksering, inklusive overskrifter, tabeller og struktureret metadata, se Sådan udtrækkes indhold til søgning og indeksering . Denne artikel fokuserer på billedudtrækning og metadata for dokumentegenskaber.

Forudsætninger

  1. Installer .NET SDK .
  2. Tilføj Aspose.Words NuGet-pakken: dotnet add package Aspose.Words
  3. Forbered et Word-dokument (document.docx) med tekst, billeder og metadata.

Trin-for-trin guide til at udtrække indhold fra Word-filer

1. Load the Word Document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Forklaring: Denne kode indlæser det angivne Word-dokument i hukommelsen for videre behandling.

2. Extract Text from the Document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Forklaring: Denne kode udtrækker al tekstindhold fra det indlæste Word-dokument og udskriver det til konsollen.

3. Extract Metadata from the Document

using System;
using Aspose.Words;
using Aspose.Words.Properties;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Forklaring: Denne kode udtrækker og udskriver titel-, forfatter- og oprettelsesdato-metadata fra Word-dokumentet.

4. Extract Images from the Document

using System;
using Aspose.Words;
using Aspose.Words.Drawing;
using Aspose.Words.Properties;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Forklaring: Denne kode udtrækker alle billeder fra Word-dokumentet og gemmer dem som target="_blank" rel="noopener"> PNG

filer i projektmappen.

5. Test the Solution

  • Sørg for document.docx er i projektmappen.
  • Kør programmet og verificer:Udtrukket tekst i konsoloutput.Metadetaljer udskrevet.Udtrukne billeder gemt i projektmappen.

Indlejr et videolink

Windows

  1. Installer .NET-runtime og implementer applikationen.
  2. Test applikationen ved at køre den via kommandolinjen.

Linux

  1. Forklaring: Denne kode opretter et nyt Word-dokument, indsætter et cirkeldiagram med eksempeldata, og gemmer dokumentet.
  2. Brug terminalkommandoer til at udføre applikationen eller hoste den på en server.

macOS

  1. Kør applikationen ved hjælp af Kestrel eller implementer den på en cloud-tjeneste.

Almindelige problemer og rettelser

  1. Billeder ikke udtrukket: - Sørg for, at dokumentet indeholder indlejrede billeder og ikke eksternt linkede.
  2. Metadata mangler: - Verificer, at dokumentet har metadataegenskaber som Titel eller Forfatter indstillet.
  3. Behandling af store filer: - Brug en hukommelseseffektiv tilgang, såsom at behandle specifikke sektioner af dokumentet.

Med denne vejledning kan du programmatisk udtrække værdifuldt indhold fra Word-dokumenter ved hjælp af Aspose.Words til .NET.

 Dansk