Extract Media from Word Documents

Làm thế nào để thu thập văn bản, hình ảnh và metadata từ các tài liệu Word trong .NET

Tiết xuất văn bản, hình ảnh và metadata từ tài liệu Word là điều cần thiết cho phân tích và xử lý tài liệu. Aspose.Words cho .NET, các nhà phát triển có thể lập trình thu thập nội dung tài liệu và thuộc tính cho các trường hợp sử dụng khác nhau, chẳng hạn như indexing, lưu trữ, hoặc chuyển đổi nội dung.

Nguyên tắc

  • Cài đặt The .NET SDK .
  • Thêm gói Aspose.Words NuGet:dotnet add package Aspose.Words
  • Lời bài hát (Word)document.docx) với văn bản, hình ảnh và metadata.

Hướng dẫn từng bước để lấy nội dung từ các tệp Word

1.Hãy tải tài liệu từ

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Giải thích: Mã này tải tài liệu Word cụ thể vào bộ nhớ để xử lý thêm.

2.Thuyết xuất văn bản từ tài liệu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Giải thích: Mã này lấy ra tất cả nội dung văn bản từ tài liệu Word tải lên và in nó vào console.

3.Metadata extract từ tài liệu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Lời giải thích: Mã này lấy và in tiêu đề, tác giả và dữ liệu metadata ngày tạo từ tài liệu Word.

4.Thuyết xuất hình ảnh từ tài liệu

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Giải thích: Mã này lấy ra tất cả các hình ảnh từ tài liệu Word và lưu chúng như các tệp PNG trong thư mục dự án.

5 – Kiểm tra giải pháp

  • Bảo đảm document.docx nằm trong thư mục dự án.
  • Thực hiện chương trình và kiểm tra:- Text extracted trong console output.
  • Các dữ liệu metadata được in.
  • Các hình ảnh được rút được lưu trong thư mục dự án.

Cách triển khai và chạy trên các nền tảng chính

Windows

  • Cài đặt .NET runtime và triển khai ứng dụng.
  • Kiểm tra ứng dụng bằng cách chạy nó qua dòng lệnh.

Linux

  • Cài đặt .NET runtime
  • Sử dụng lệnh cuối để thực hiện ứng dụng hoặc lưu trữ nó trên máy chủ.

macOS

  • chạy ứng dụng bằng cách sử dụng Kestrel hoặc triển khai nó trên một dịch vụ đám mây.

Các vấn đề chung và Fixes

  • Hình ảnh không được thu thập:- Hãy chắc chắn rằng tài liệu chứa hình ảnh tích hợp và không liên kết bên ngoài.

  • Mất dữ liệu:- Kiểm tra rằng tài liệu có các thuộc tính metadata như Title hoặc Author set.

  • Bộ xử lý file dài:- Sử dụng một cách tiếp cận hiệu quả bộ nhớ, chẳng hạn như xử lý các phần cụ thể của tài liệu.

Với hướng dẫn này, bạn có thể lập trình lấy nội dung có giá trị từ tài liệu Word bằng cách sử dụng Aspose.Words cho .NET.

 Tiếng Việt