Extrakce médií z dokumentů Word

Jak extrahovat text, obrázky a metadata z dokumentů Word v .NET

Extrakce textu, obrázků a metadat z dokumentů Word je nezbytná pro analýzu a zpracování dokumentů. S Aspose.Words pro .NET mohou vývojáři programově získávat obsah a vlastnosti dokumentu pro různé případy použití, jako je indexování, archivace nebo transformace obsahu.

Požadavky

  1. Nainstalujte .NET SDK.
  2. Přidejte NuGet balíček Aspose.Words: dotnet add package Aspose.Words
  3. Připravte dokument Word (document.docx) s textem, obrázky a metadaty.

Krok za krokem průvodce extrakcí obsahu z Word souborů

1. Načtěte dokument Word

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Krok 1: Načtěte dokument Word
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Kroky 2, 3 a 4 budou přidány níže
    }
}

Vysvětlení: Tento kód načte zadaný dokument Word do paměti pro další zpracování.

2. Extrakce textu z dokumentu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Krok 2: Extrakce textu
        string text = doc.GetText();
        Console.WriteLine("Extrahovaný text: " + text);

        // Kroky 3 a 4 budou přidány níže
    }
}

Vysvětlení: Tento kód extrahuje veškerý textový obsah z načteného dokumentu Word a vytiskne jej do konzole.

3. Extrakce metadat z dokumentu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extrahovaný text: " + text);

        // Krok 3: Extrakce metadat
        Console.WriteLine("Název: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Autor: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Datum vytvoření: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Krok 4 bude přidán níže
    }
}

Vysvětlení: Tento kód extrahuje a tiskne metadata o názvu, autorovi a datu vytvoření z dokumentu Word.

4. Extrakce obrázků z dokumentu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extrahovaný text: " + text);

        Console.WriteLine("Název: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Autor: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Datum vytvoření: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Krok 4: Extrakce obrázků
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Obrázek_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Uložený obrázek: {imageFilePath}");
            }
        }

        Console.WriteLine("Extrakce obsahu byla dokončena.");
    }
}

Vysvětlení: Tento kód extrahuje všechny obrázky z dokumentu Word a ukládá je jako PNG soubory v adresáři projektu.

5. Otestujte řešení

  • Ujistěte se, že document.docx je v adresáři projektu.
  • Spusťte program a ověřte:
    • Extrahovaný text v konzolovém výstupu.
    • Vytisknuté detaily metadat.
    • Uložené extrahované obrázky v adresáři projektu.

Jak nasadit a spustit na hlavních platformách

Windows

  1. Nainstalujte .NET runtime a nasadíte aplikaci.
  2. Otestujte aplikaci spuštěním přes příkazový řádek.

Linux

  1. Nainstalujte .NET runtime.
  2. Použijte terminálové příkazy k provedení aplikace nebo ji hostujte na serveru.

macOS

  1. Spusťte aplikaci pomocí Kestrel nebo ji nasadíte na cloudovou službu.

Běžné problémy a opravy

  1. Obrázky nebyly extrahovány:
    • Ujistěte se, že dokument obsahuje vložené obrázky a ne externě propojené.
  2. Chybějící metadata:
    • Ověřte, že dokument má nastavené vlastnosti metadat jako Název nebo Autor.
  3. Zpracování velkých souborů:
    • Použijte přístup šetrný k paměti, například zpracování konkrétních sekcí dokumentu.

S tímto průvodcem můžete programově extrahovat cenný obsah z dokumentů Word pomocí Aspose.Words pro .NET.

 Čeština