Extract Word Document Content

Cum să extrageți conținut pentru căutare și indexare folosind Aspose.Words

Extractarea conținutului din documentele Word permite dezvoltatorilor să permită căutări avansate și capacități de indexare. Aspose.Words pentru .NET, puteți extrage în mod programat text, titluri, tabele și metadata pentru integrare în motoarele de căutare sau bazele de date.

Prerequisite: Instrumente pentru extragerea conținutului din documentele Word

Instalarea lui .Cuvânt cheie SDK pentru sistemul dvs. de operare.
Adăugați Aspose.Words la proiectul dvs:dotnet add package Aspose.Words
Pregătiți documentele Word care conțin text, tabele și metadata pentru testare.

Ghid pas cu pas pentru a extrage conținut din documentele Word

Pasul 1: Încărcați documentul Word

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Load the Word document
        string filePath = "DocumentToIndex.docx";
        Document doc = new Document(filePath);

        Console.WriteLine("Document loaded successfully.");
    }
}

Explicare: Acest cod încărcă documentul Word specificat în memorie.

Pasul 2: Extragerea conținutului text

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract text from the document
        string text = doc.GetText();
        Console.WriteLine("Extracted Text:");
        Console.WriteLine(text);
    }
}

Explicare: Acest cod extrage tot conținutul text din documentul încărcat Word.

Pasul 3: Extrageți titluri și metadata

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract headings
        foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
        {
            if (para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading1 ||
                para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading2)
            {
                Console.WriteLine($"Heading: {para.GetText().Trim()}");
            }
        }

        // Extract metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
    }
}

Explicare: Acest cod extrage titluri (Titlu1 și Titlu2) și metadate (titlu și autor) din document.

Pasul 4: Extrageți tabele pentru indexare

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract tables from the document
        foreach (Table table in doc.GetChildNodes(NodeType.Table, true))
        {
            foreach (Row row in table.Rows)
            {
                foreach (Cell cell in row.Cells)
                {
                    Console.Write(cell.GetText().Trim() + "\t");
                }
                Console.WriteLine();
            }
        }
    }
}

Explicare: Acest cod extrage toate tabelele din document și imprimează conținutul lor pe consola.

Aplicații reale pentru extracția de conținut

Indicarea motoarelor de căutare:- Extrageți text și metadata pentru a permite căutarea completă a textului în sistemele de gestionare a documentelor.
Analiza datelor:- Extrageți tabele și analizați datele structurate pentru rapoarte sau tablete.
Consiliul de referință al conținutului:- Extrage titluri și secțiuni cheie pentru a genera rezumatele documentelor.

Scenariile de implementare pentru căutare și indexare

Soluții de căutare pentru întreprinderi:- Integrarea extracției de conținut în platformele de căutare a întreprinderilor pentru recuperarea rapidă a documentelor.
Pipe de date personalizate:- Utilizați conținutul extras pentru bazele de date de alimentare sau modelele de învățare automată pentru analiză.

Probleme comune și fixări pentru extracția de conținut

Extracție completă a textului:- Asigurați-vă că formatul documentului este susținut și încărcat corect.
Erorile de identificare a titlului:- Verificați documentul utilizând stiluri de titlu coerente (de exemplu, titlu1, titlu2).
Întrebări cu privire la tabloul:- Mâncați celulele combinate și structurile de masă complexe cu logică suplimentară.

Prin extragerea conținutului cu Aspose.Words în .NET, puteți activa caracteristici puternice de căutare și indexare pentru documentele Word în aplicațiile dvs.