提取 Word 文档中的媒体

如何在 .NET 中从 Word 文档中提取文本、图像和元数据

从Word文档中提取文本、图像和元数据对于文档分析和处理至关重要。使用Aspose.Words for .NET,开发人员可以以编程方式检索文档内容和属性,以满足各种用例,例如索引、归档或内容转换。

先决条件

  1. 安装 .NET SDK
  2. 添加Aspose.Words NuGet包: dotnet add package Aspose.Words
  3. 准备一个包含文本、图像和元数据的Word文档(document.docx)。

从Word文件提取内容的分步指南

1. 加载Word文档

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // 步骤1:加载Word文档
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // 步骤2、3和4将在下面添加
    }
}

说明: 此代码将指定的Word文档加载到内存中以进行进一步处理。

2. 从文档中提取文本

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // 步骤2:提取文本
        string text = doc.GetText();
        Console.WriteLine("提取的文本: " + text);

        // 步骤3和4将在下面添加
    }
}

说明: 此代码从加载的Word文档中提取所有文本内容并将其打印到控制台。

3. 从文档中提取元数据

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("提取的文本: " + text);

        // 步骤3:提取元数据
        Console.WriteLine("标题: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("作者: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("创建日期: " + doc.BuiltInDocumentProperties.CreatedTime);

        // 步骤4将在下面添加
    }
}

说明: 此代码提取并打印Word文档中的标题、作者和创建日期元数据。

4. 从文档中提取图像

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("提取的文本: " + text);

        Console.WriteLine("标题: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("作者: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("创建日期: " + doc.BuiltInDocumentProperties.CreatedTime);

        // 步骤4:提取图像
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"保存的图像: {imageFilePath}");
            }
        }

        Console.WriteLine("内容提取完成。");
    }
}

说明: 此代码从Word文档中提取所有图像并将其保存为PNG文件到项目目录中。

5. 测试解决方案

  • 确保document.docx在项目目录中。
  • 运行程序并验证:
    • 控制台输出中提取的文本。
    • 打印的元数据详细信息。
    • 保存到项目文件夹中的提取图像。

如何在主要平台上部署和运行

Windows

  1. 安装.NET运行时并部署应用程序。
  2. 通过命令行运行应用程序进行测试。

Linux

  1. 安装.NET运行时。
  2. 使用终端命令执行应用程序或将其托管在服务器上。

macOS

  1. 使用Kestrel运行应用程序或将其部署在云服务上。

常见问题及解决方案

  1. 未提取图像
    • 确保文档包含嵌入图像,而不是外部链接的图像。
  2. 元数据缺失
    • 验证文档是否设置了诸如标题或作者等元数据属性。
  3. 大文件处理
    • 使用内存高效的方法,例如处理文档的特定部分。

通过本指南,您可以使用Aspose.Words for .NET以编程方式从Word文档中提取有价值的内容。

 中文