Extract Word Document Content

Bagaimana untuk mengekstrak kandungan untuk carian dan indeks menggunakan Aspose.Words

Mengekstrak kandungan daripada dokumen Word membolehkan pemaju untuk memungkinkan carian lanjutan dan keupayaan pengindeksan. Aspose.Words untuk .NET , anda boleh secara programmatik mengekstra teks, tajuk, jadual, dan metadata untuk integrasi ke dalam enjin pencarian atau pangkalan data.

Syarat-syarat: Alat untuk Mengekstrak Kandungan Dari Dokumen Word

  • Instalasi yang Rangkaian SDK untuk sistem operasi anda.
  • Tambah Aspose.Words kepada projek anda:dotnet add package Aspose.Words
  • Sediakan dokumen Word yang mengandungi teks, jadual, dan metadata untuk ujian.

Langkah-langkah Panduan untuk Mengekstrak Kandungan Dari Dokumen Word

Langkah 1: Muat turun dokumen perkataan

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Load the Word document
        string filePath = "DocumentToIndex.docx";
        Document doc = new Document(filePath);

        Console.WriteLine("Document loaded successfully.");
    }
}

Penerangan: Kod ini memuatkan dokumen Word yang ditentukan ke dalam memori.

Langkah 2: Mengekstrak kandungan teks

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract text from the document
        string text = doc.GetText();
        Console.WriteLine("Extracted Text:");
        Console.WriteLine(text);
    }
}

Penerangan: Kod ini mengekstrak semua kandungan teks daripada dokumen Word yang dimuat naik.

Langkah 3: Mengekstrak tajuk dan metadata

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract headings
        foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
        {
            if (para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading1 ||
                para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading2)
            {
                Console.WriteLine($"Heading: {para.GetText().Trim()}");
            }
        }

        // Extract metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
    }
}

Penerangan: Kod ini mengekstrak tajuk (Bahagian 1 dan Bahagian 2) dan metadata (titik dan penulis) daripada dokumen.

Langkah 4: Mengekstrak jadual untuk indeks

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract tables from the document
        foreach (Table table in doc.GetChildNodes(NodeType.Table, true))
        {
            foreach (Row row in table.Rows)
            {
                foreach (Cell cell in row.Cells)
                {
                    Console.Write(cell.GetText().Trim() + "\t");
                }
                Console.WriteLine();
            }
        }
    }
}

Penerangan: Kod ini mengekstrak semua jadual daripada dokumen dan mencetak kandungan mereka ke konsol.

Aplikasi dunia sebenar untuk pengekstrakan kandungan

    • Indeks Enjin Pencarian :- Mengekstrak teks dan metadata untuk membolehkan carian teks penuh dalam sistem pengurusan dokumen.
  • • Analisis data * :- Mengekstrak jadual dan menganalisis data berstruktur untuk laporan atau dashboard.

  • Penyelesaian kandungan :- Mengekstrak tajuk dan bahagian kunci untuk menghasilkan ringkasan dokumen.

Senario Pelaksanaan untuk Pencarian dan Indeks

  • ** Penyelesaian Pencarian Perniagaan** :- Mengintegrasikan pengekstrakan kandungan ke dalam platform carian korporat untuk pengambilan dokumen yang cepat.

  • Pusat data yang disesuaikan- Gunakan kandungan yang diekstrak untuk memelihara pangkalan data atau model pembelajaran mesin untuk analisis.

Masalah Umum dan Fix untuk Pengekstrakan Kandungan

  • Pengeluaran teks yang tidak lengkap:- Pastikan format dokumen disokong dan dimuat naik dengan betul.

  • ** Kesilapan pengenalan tajuk** :- Memeriksa dokumen menggunakan gaya tajuk yang konsisten (contohnya, Tajuk1, Tajukan2).

    • Perbincangan mengenai isu-isu yang berkaitan :- Mengendalikan sel-sel gabungan dan struktur meja yang kompleks dengan logik tambahan.

Dengan mengekstrak kandungan dengan Aspose.Words dalam .NET, anda boleh mengaktifkan ciri carian dan pengindeksan yang kuat untuk dokumen Word dalam aplikasi anda.

 Melayu