Extract Word Document Content

Com extreure contingut per a la cerca i la indicació utilitzant Aspose.Words

L’extracció de contingut dels documents de Word permet als desenvolupadors habilitar capacitats avançades de cerca i indexament. amb Aspose.Words per a .NET, es pot extreure programàticament text, títols, taules i metadades per integrar-se en els motors de recerca o bases de dades.

Prerequisits: Tools per a l’extracció de contingut dels documents de Word

  • Install the .NET i SDK for your operating system.
  • Afegeix Aspose.Words al teu projecte:dotnet add package Aspose.Words
  • Prepara els documents de Word que continguin text, taules i metadades per a la prova.

Guia de pas a pas per a l’extracció de contingut dels documents de Word

Pas 1: Carregar el document de paraula

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Load the Word document
        string filePath = "DocumentToIndex.docx";
        Document doc = new Document(filePath);

        Console.WriteLine("Document loaded successfully.");
    }
}

Explicació: Aquest codi carrega el document de Word especificat a la memòria.

Pas 2: Extreure el contingut de text

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract text from the document
        string text = doc.GetText();
        Console.WriteLine("Extracted Text:");
        Console.WriteLine(text);
    }
}

Explicació: Aquest codi extreu tot el contingut de text del document de Word carregat.

Pas 3: Extracció de titelles i metadades

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract headings
        foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
        {
            if (para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading1 ||
                para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading2)
            {
                Console.WriteLine($"Heading: {para.GetText().Trim()}");
            }
        }

        // Extract metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
    }
}

Explicació: Aquest codi extraeix títols (Heading1 i Heading2) i metadades (Title i autor) del document.

Pas 4: Extraure taules per a la indicació

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract tables from the document
        foreach (Table table in doc.GetChildNodes(NodeType.Table, true))
        {
            foreach (Row row in table.Rows)
            {
                foreach (Cell cell in row.Cells)
                {
                    Console.Write(cell.GetText().Trim() + "\t");
                }
                Console.WriteLine();
            }
        }
    }
}

Explicació: Aquest codi extracta totes les taules del document i imprimeix el seu contingut a la consola.

Aplicacions del món real per a l’extracció de continguts

  • Indicadors de motors de cerca:- Extraure text i metadades per permetre la cerca de text complet en els sistemes de gestió de documents.

  • Anàlisi de dades:- Extraure taules i analitzar dades estructurades per a informes o dashboards.

  • Resum de continguts:- Extraure títols i seccions clau per a la generació de resums de documents.

Escenaris d’implementació per a la cerca i la indicació

  • Solucions de cerca d’empresa:- Integrar l’extracció de contingut a les plataformes de cerca d’empreses per a la ràpida recuperació de documents.

  • Pipelines de dades personalitzades:- Utilitzar continguts extraïts per a les bases de dades d’alimentació o models d’aprenentatge automàtic per a l’anàlisi.

Problemes comuns i fixes per a l’extracció de continguts

  • Extracció de text incompleta:- Assegureu-vos que el format de document està recolzat i carregat correctament.

  • Errors d’identificació del títol:- Verifiqueu que el document utilitza estils de titulació consistents (per exemple, Heading1, Heading2).

  • Els problemes de la taula de parcel·laci:- Gestionar cèl·lules fusionades i estructures de taula complexes amb lògica addicional.

En extreure contingut amb Aspose.Words en .NET, vostè pot habilitar potents característiques de cerca i indexament de documents de Word en les seves aplicacions.

 Català