Extract Media from Word Documents

Jak extrahovat text, obrázky a metadata z Word dokumentů v .NET

Odstranění textu, obrázků a metadata z dokumentů Word je nezbytné pro analýzu a zpracování dokumentů. Aspose.Words pro .NET, vývojáři mohou programově získat obsah dokumentů a vlastnosti pro různé případy použití, jako je indexování, archivace nebo transformace obsahu.

Předpoklady

  • Instalace The .NET SDK .
  • Přidejte do balíčku Aspose.Words NuGet:dotnet add package Aspose.Words
  • Připravte si dokument (document.docx) s textem, obrázky a metadata.

Krok za krokem průvodce k extrahování obsahu z Word souborů

1. nahrávejte slovní dokument

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Objasnění: Tento kód nahrává specifikovaný Word dokument do paměti pro další zpracován.

2) Využijte text z dokumentu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Objasnění: Tento kód extrahuje veškerý textový obsah z načteného dokumentu Word a vytiskne ho na konzoli.

Vytažení metadata z dokumentu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Objasnění: Tento kód extrahuje a vytiskne metadata názvu, autora a data vytvoření z dokumentu Word.

4.Vytáhnout obrázky z dokumentu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Objasnění: Tento kód extrahuje všechny obrázky z dokumentu Word a ukládá je jako PNG soubory v projektovém adresáři.

5. vyzkoušet řešení

  • Zajištění document.docx Je v projektovém katalogu.
  • Proveďte program a ověřte:- Využití textu v konzole.
  • Podrobnosti metadata jsou vytisknuty.
  • Získané snímky jsou uloženy v souboru projektu.

Jak rozložit a spustit na velkých platformách

Windows

  • Instalace .NET Runtime a implementace aplikace.
  • Vyzkoušejte aplikaci tím, že ji spustíte prostřednictvím příkazové linky.

Linux

  • Instalace .NET Runtime.
  • Použijte terminální příkazy k provedení aplikace nebo jej hostit na serveru.

MacOS

  • Spusťte aplikaci pomocí aplikace Kestrel nebo jej umístěte na cloudové služb.

Společné problémy a fixy

  • Obrázky, které nebyly vyřazeny:- Ujistěte se, že dokument obsahuje vestavěné obrázky a ne externě propojen.

  • chybějící metadata:- Ujistěte se, že dokument má metadata vlastnosti, jako je nastavení Titul nebo Autor.

  • Zpracování velkých soubor:- Použijte paměťově efektivní přístup, například zpracování konkrétních částí dokumentu.

S tímto průvodcem můžete programově extrahovat cenný obsah z dokumentů Word pomocí aplikace Aspose.Words pro .NET.

 Čeština