Extract Media from Word Documents

Kā izņemt tekstu, attēlus un metadatus no Word dokumentiem .NET

Teksta, attēlu un metadatu izņemšana no Word dokumentiem ir nepieciešama dokumentu analīzei un apstrādei. Aspose.Words for .NET , izstrādātāji programmatiski var iegūt dokumentu saturu un īpašības dažādiem lietošanas gadījumiem, piemēram, indeksēšanu, arhivēšanu vai satura transformāciju.

Prerequisites

  • Instalējiet Netaisnība SDK .
  • Pievienojiet Aspose.Words NuGet paketi:dotnet add package Aspose.Words
  • Iepazīstiet vārda dokumentu (document.docx) ar tekstu, attēliem un metadatiem.

Pakāpeniski ceļvedis, kā izņemt saturu no Word failiem

1.Lasīt vārda dokumentu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

** Izskaidrojums:** Šis kods norāda norādīto Word dokumentu atmiņā turpmākai apstrādei.

2. izrakstīt tekstu no dokumenta

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

** Izskaidrojums:** Šis kods izņem visu teksta saturu no uzlādētā Word dokumenta un drukā to uz konsoli.

Metadatu izņemšana no dokumenta

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

** Izskaidrojums:** Šis kods izraksta un drukā nosaukuma, autora un radīšanas datuma metadatu no Vārda dokumenta.

Izņemt attēlus no dokumenta

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

** Izskaidrojums:** Šis kods izņem visus attēlus no Word dokumenta un glabā tos kā PNG failus projekta direktorijā.

Izmēģiniet risinājumu

  • Ensure document.docx Tas ir projekta direktorijā.
  • Izveidojiet programmu un pārbaudiet:- Izņemts teksts konsoles iznākumā.
  • Metadatu detaļas ir drukātas.
  • Izņemti attēli, kas saglabāti projektā.

Kā uzstādīt un darboties galvenajās platformās

Windows

  • Instalējiet .NET darbības laiku un ievietojiet pieteikumu.
  • Pārbaudiet pieteikumu, pārvietojot to ar komandas līniju.

Linux

  • Uzstādīt .NET runtime.
  • Izmantojiet termināla komandas, lai veiktu pieteikumu vai uzglabātu to serverī.

Maikls

  • Izveidojiet pieteikumu, izmantojot Kestrel vai ievietojiet to mākoņa pakalpojumā.

Kopīgas problēmas un fiksācijas

  • attēli, kas nav izņemti:- Pārliecinieties, ka dokumentā ir iebūvēti attēli un tie, kas nav ārēji saistīti.

  • Metadatu trūkums:- Pārliecinieties, ka dokumentā ir metadatu īpašības, piemēram, nosaukums vai autors.

  • Liela faila apstrāde:- Izmantojiet atmiņas efektīvu pieeju, piemēram, apstrādājiet konkrētus dokumentu posmus.

Ar šo rokasgrāmatu jūs varat programmatiski iegūt vērtīgu saturu no Word dokumentiem, izmantojot Aspose.Words .NET.

 Latviski