Extract Media from Word Documents

Како извући текст, слике и метадане из Word докумената у .NET

Екстракција текста, слика и мета података из Word докумената је од суштинског значаја за анализу и обраду документа. Аспозе.Вордс за .НЕТ, програмери могу програмски добити садржај документа и својства за различите употребе случајева, као што су индексирање, архивирање или трансформација садржаја.

Принципи

  • Install the .NET СДК.
  • Додајте пакету Aspose.Words NuGet:dotnet add package Aspose.Words
  • Препоручује се припремање документа (document.docx) са текстом, сликама и метаданима.

Корак по корак водич за извлачење садржаја из Word датотека

1. преузмите документ за реч

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Појашњење: Овај код преузима одређени Word документ у меморију за даље обраду.

2. извући текст из документа

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Појашњење: Овај код извлачи све текстуалне садржаје из преузетог Word документа и штампа га на конзолу.

Извлачите метадане из документа

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Појашњење: Овај код извлачи и штампа наслов, аутор и датум креирања метадане из Ворд документа.

Извлачите слике из документа

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Појашњење: Овај код извлачи све слике из Ворд документа и чува их као ПНГ датотеке у директоријуму пројекта.

5. испитивање решења

  • Ensure document.docx is in the project directory.
  • Проверите програм и проверите:- Изведени текст у излазу конзоле.
  • Детаљи метадата су штампани.
  • Истражене слике сачуване у фасциклу пројекта.

Како депонирати и радити на великим платформама

Виндовс

  • Инсталирајте .NET радно време и покрените апликацију.
  • Тестирајте апликацију покретањем преко командне линије.

Линукс

  • Инсталирајте .NET Runtime.
  • Користите терминалне команде да бисте извршили апликацију или га хостирали на серверу.

МАКОС

  • Изводите апликацију користећи Кестрел или га расположите на облачној служби.

Уобичајени проблеми и фиксирања

  • Слике које нису уклоњене:- Уверите се да документ садржи уграђене слике, а не споља повезане.

  • Недостатак метада:- Уверите се да документ има метадане својства као што су наслов или аутор сет.

  • Прерађивање великих датотека:- Користите меморијски ефикасан приступ, као што је обрада одређених одељака документа.

Са овим водичем можете програматски извући драгоцени садржај из Word докумената користећи Aspose.Words за .NET.

 Српски