Extract Media from Word Documents

# Cara Mengekstrak Teks, Gambar, dan Metadata dari Dokumen Word di .NET

Mengekstrak teks, gambar, dan metadata dari dokumen Word adalah penting untuk analisis dan pemrosesan dokumen. Aspose.Words untuk .NET, pengembang dapat secara programmatik mendapatkan konten dokumen dan sifat untuk berbagai kasus penggunaan, seperti indeks, penyimpanan, atau transformasi konten.

Persyaratan

  • Instalasi yang .NET SDK .
  • Tambahkan paket Aspose.Words NuGet:dotnet add package Aspose.Words
  • Menulis sebuah buku teks (document.docxdengan teks, gambar, dan metadata.

Langkah demi langkah panduan untuk mengekstrak konten dari file Word

1.Mengunggah Word Document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Penerangan: Kode ini memuat dokumen Word yang ditentukan ke dalam memori untuk pemrosesan lebih lanjut.

2) Mengekstrak teks dari dokumen

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Penerangan: Kode ini mengekstrak semua konten teks dari dokumen Word yang dimuat dan mencetaknya ke konsol.

Mengekstrak Metadata dari Dokumen

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Penerangan: Kod ini mengekstrak dan mencetak judul, penulis, dan metadata tanggal penciptaan dari dokumen Word.

Mengekstrak gambar dari dokumen

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Penerangan: Kode ini mengekstrak semua gambar dari dokumen Word dan menyimpannya sebagai file PNG di direktori proyek.

5. menguji solusi

  • Asuransi document.docx berada di direktori proyek.
  • Lakukan program ini dan periksa:- Mengekstrak teks dalam output konsol.
  • Metadata yang dicetak.
  • Gambar yang dikeluarkan disimpan dalam folder proyek.

Bagaimana untuk mendistribusikan dan menjalankan pada platform utama

Windows

  • Menginstal .NET Runtime dan mengimplementasikan aplikasi.
  • Menguji aplikasi dengan menggunakannya melalui baris perintah.

Linux

  • Menginstal .NET Runtime.
  • Gunakan perintah terminal untuk menjalankan aplikasi atau menyimpannya di server.

macos

  • Luncurkan aplikasi menggunakan Kestrel atau mendistribusikannya ke layanan cloud.

Masalah dan Fix

  • Gambar yang tidak diunggah:- Pastikan dokumen ini mengandung gambar tertanam dan tidak terhubung secara eksternal.

  • Data yang hilang:- Pastikan dokumen memiliki sifat metadata seperti judul atau set penulis.

  • Pemrosesan file panjang:- Gunakan pendekatan memori yang efisien, seperti memproses bagian tertentu dari dokumen.

Dengan panduan ini, Anda dapat secara programmatik mengekstrak konten berharga dari dokumen Word menggunakan Aspose.Words untuk .NET.

 Indonesia