Extract Media from Word Documents

Ako extrahovať text, obrázky a metadata z Word dokumentov v .NET

Odstránenie textu, obrázkov a metadata z dokumentov programu Word je nevyhnutné pre analýzu a spracovanie dokumentu. Aspose.Words pre .NET, vývojári môžu programaticky získať obsah dokumentu a vlastnosti pre rôzne prípady použitia, ako je indexovanie, archívovanie alebo transformácia obsahu.

Predpoklady

  • Install the • NET SDK.
  • Pridajte balík Aspose.Words NuGet:dotnet add package Aspose.Words
  • Príprava písomného dokumentu (document.docx) s textom, obrázkami a metadata.

Krok za krokom sprievodca extrahovať obsah z Word súborov

1. nahrať slovný dokument

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Vysvetlenie: Tento kód nahráva špecifikovaný Word dokument do pamäte pre ďalšie spracovanie.

2. vytiahnuť text z dokumentu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Vysvetlenie: Tento kód extrahuje celý textový obsah z nahraného dokumentu Word a vytlačí ho na konzolu.

Vyrábať metadata z dokumentu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Vysvetlenie: Tento kód vytiahne a vytlačí názov, autor a dátum vytvorenia metaúdaje z dokumentu Word.

4. vytiahnuť obrázky z dokumentu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Vysvetlenie: Tento kód extrahuje všetky obrázky z dokumentu Word a ukladá ich ako súbory PNG v projektovom katalógu.

5. vyskúšať riešenie

  • Ensure document.docx is in the project directory.
  • Spustiť program a overiť:- Vytiahnutý text v produkcii konzoly.
  • Metodické detaily sú vytlačené.
  • Odstránené obrázky uložené v priečinku projektu.

Ako rozmiestniť a spustiť na hlavných platformách

Windows

  • Nainštalujte čas prevádzky .NET a implementujte aplikáciu.
  • Vyskúšajte aplikáciu tým, že ju spustíte cez príkazovú čiaru.

Linux

  • Inštalácia .NET runtime.
  • Použite terminálne príkazy na spustenie aplikácie alebo ho hostíte na serveri.

macOS

  • Spustite aplikáciu pomocou aplikácie Kestrel alebo ju umiestnite na cloudovú službu.

Spoločné problémy a riešenia

  • Obrázky nie sú vytiahnuté:- Uistite sa, že dokument obsahuje vstavané obrázky a nie externe prepojené.

  • Metadata chýbajúce:- Uistite sa, že dokument má metadatové vlastnosti, ako je nastavenie názvu alebo autorov.

  • Vysoká úroveň spracovania súborov:- Použite pamäťový efektívny prístup, napríklad spracovanie konkrétnych sekcií dokumentu.

Pomocou tohto sprievodcu môžete programaticky extrahovať cenný obsah z dokumentov programu Word pomocou aplikácie Aspose.Words pre .NET.

 Slovenčina