Extract Media from Word Documents

Como extrair texto, imagens e metadados de documentos do Word em .NET

A extração de texto, imagens e metadados de documentos do Word é essencial para a análise e processamento de documentos. Aspose.Words para .NET, os desenvolvedores podem programaticamente recuperar conteúdo e propriedades de documentos para vários casos de uso, como indexamento, arquivamento ou transformação de conteúdo.

Pré-requisitos

  • Instalando o Dados do SDK .
  • Adicione o pacote Aspose.Words NuGet:dotnet add package Aspose.Words
  • Apresentação de um documento (document.docxcom texto, imagens e metadados.

Guia passo a passo para extrair conteúdo dos arquivos do Word

1 – Carregar o documento da palavra

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Explicação: Este código carrega o documento do Word especificado para a memória para processamento adicional.

2 – Extração de texto do documento

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Explicação: Este código extrai todo o conteúdo de texto do documento de Word carregado e imprime-o para a consola.

Extração de metadados do documento

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Explicação: Este código extrai e imprime o título, autor e metadados da data de criação do documento do Word.

4. extrair imagens do documento

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Explicação: Este código extrai todas as imagens do documento do Word e salvá-las como arquivos PNG no directorio do projeto.

5 – Teste a solução

  • Seguro document.docx Está na diretoria do projeto.
  • Execute o programa e verifique:- Texto extraído na saída da consola.
  • Detalhes de metadatos impressos.
  • Imagens extraídas salvas na pasta do projeto.

Como implantar e executar em plataformas principais

Windows

  • Instale o tempo de execução .NET e implante o aplicativo.
  • Teste o aplicativo ao executá-lo através da linha de comando.

O Linux

  • Instale o .NET Runtime.
  • Use comandos de terminal para executar o aplicativo ou hospedá-lo em um servidor.

macos

  • Execute o aplicativo usando o Kestrel ou coloque-o em um serviço de nuvem.

Problemas comuns e fixos

  • Imagens não extraídas:- Certifique-se de que o documento contém imagens incorporadas e não externamente ligadas.

  • Metadatos que faltam:- Verifique se o documento tem propriedades de metadados como o título ou o conjunto de autor.

  • Processamento de arquivos de longa duração:- Use uma abordagem eficiente na memória, como processar seções específicas do documento.

Com este guia, você pode extrair de forma programática conteúdo valioso de documentos do Word usando Aspose.Words para .NET.

 Português