Extract Media from Word Documents

Kako izvesti tekst, slike i metapodatke iz Word dokumenata u .NET-u

Ekstrakcija teksta, slika i metapodataka iz Word dokumenata je neophodna za analizu i obradu dokumenta. Aspose.Words za .NET, razvijalci mogu programski povući sadržaj dokumenta i svojstva za različite slučajeve korištenja, kao što su indeksiranje, arhiviranje ili pretvaranje sadržaja.

Preduzeća

  • Install the Sljedeći članakNET SDK.
  • Dodajte paket Aspose.Words NuGet:dotnet add package Aspose.Words
  • Slijedeći članakSlijedeći članakSlijedeći članakSlijedeći članak(document.docx) sa tekstom, slikama i metapodatkom.

Korak po korak vodič za uklanjanje sadržaja iz Word datoteka

1. preuzmite riječni dokument

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Objasnjenje: Ovaj kod preuzima određeni Word dokument u memoriju za daljnju obradu.

2. izvući tekst iz dokumenta

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Objasnjenje: Ovaj kod izvlači sve tekstne sadržaje iz punog Word dokumenta i štampa ga na konzolu.

Uklanjanje metapodataka iz dokumenta

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Objasnjenje: Ovaj kod izvlači i štampa metapodatke o naslovu, autoru i datumu stvaranja iz Word dokumenta.

4. izvući slike iz dokumenta

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Objasnjenje: Ovaj kod izvlači sve slike iz Word dokumenta i čuva ih kao PNG datoteke u direktoriju projekta.

5. ispitati rješenje

  • Ensure document.docx is in the project directory.
  • Provedite program i provjerite:- Izvlačen tekst u konzoli izlaska.
  • Metodološki podaci su ispisani.
  • Izuzete slike sačuvane u dosjeu projekta.

Kako raspoređivati i trčati na velikim platformama

Windows

  • Instalirajte .NET runtime i pokrenite aplikaciju.
  • Provjerite aplikaciju pokretanjem preko zapovjedne linije.

Linux

  • Instalirajte vrijeme rada .NET.
  • Koristite terminalne zapovijedi kako biste izvršili aplikaciju ili je domaćin na serveru.

MacOS

  • Izvedite aplikaciju pomoću Kestrela ili ga postavite na uslugu u oblaku.

Zajednička pitanja i rješenja

  • Fotografije koje nisu prikupljene:- Uvjerite se da dokument sadrži ugrađene slike, a ne one koje su vanjski povezane.

  • Izgubljeni metapodatci:- Provjerite da dokument ima svojstva metapodataka kao što su Naslov ili Autor set.

  • Proizvodnja velikih datoteka:- Koristite pamćenje učinkovit pristup, kao što je obradu određenih dijelova dokumenta.

S ovim vodičem možete programski izvući vrijednu sadržaj iz Word dokumenata pomoću Aspose.Words za .NET.

 Hrvatski