Extract Word Document Content

Kako izvesti sadržaj za pretraživanje i indeksiranje pomoću Aspose.Words

Izvlačenje sadržaja iz Word dokumenata omogućuje razvijalcima da omogućuju napredne mogućnosti pretraživanja i indeksiranja. Aspose.Words za .NET, možete programski izvlačiti tekst, naslove, tablice i metapodatke za integraciju u pretraživače ili baze podataka.

Preduvjeti: Koristi za uklanjanje sadržaja iz Word dokumenata

  • Install the Sljedeći članakNET SDK for your operating system.
  • Dodajte Aspose.Words u svoj projekt:dotnet add package Aspose.Words
  • Pripremite Word dokumente koji sadrže tekst, tablice i metapodatke za testiranje.

Korak po korak vodič za uklanjanje sadržaja iz Word dokumenata

Korak 1: Preuzmite Word dokument

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Load the Word document
        string filePath = "DocumentToIndex.docx";
        Document doc = new Document(filePath);

        Console.WriteLine("Document loaded successfully.");
    }
}

Objasnjenje: Ovaj kod preuzima određeni Word dokument u memoriju.

2. korak: Uklanjanje sadržaja

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract text from the document
        string text = doc.GetText();
        Console.WriteLine("Extracted Text:");
        Console.WriteLine(text);
    }
}

Objasnjenje: Ovaj kod izvlači sve tekstne sadržaje iz punog Word dokumenta.

Korak 3: Izvadite naslovnice i metapodatke

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract headings
        foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
        {
            if (para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading1 ||
                para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading2)
            {
                Console.WriteLine($"Heading: {para.GetText().Trim()}");
            }
        }

        // Extract metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
    }
}

Objasnjenje: Ovaj kod izvlači naslovnice (Glavnica1 i Glavica2) i metapodatke (glavnik i autor) iz dokumenta.

Korak 4: Izvadite tablice za indeksiranje

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract tables from the document
        foreach (Table table in doc.GetChildNodes(NodeType.Table, true))
        {
            foreach (Row row in table.Rows)
            {
                foreach (Cell cell in row.Cells)
                {
                    Console.Write(cell.GetText().Trim() + "\t");
                }
                Console.WriteLine();
            }
        }
    }
}

Objasnjenje: Ovaj kod izvlači sve tablice iz dokumenta i štampa njihov sadržaj na konzolu.

Real-World aplikacije za ekstrakciju sadržaja

  • Indeksiranje pretraživača:- Ekstrakcija teksta i metapodataka kako bi se omogućilo cjelokupno pretraživanje teksta u sustavima upravljanja dokumentima.

  • Analiza podataka:- Izvadite tablice i analizirajte strukturirane podatke za izvješća ili tablice.

  • Sljedeći članakSvjesnost sadržaja:- Izvadite naslovnice i ključne odjeljke za stvaranje sažetak dokumenata.

Razvoj scenarija za pretraživanje i indeksiranje

  • Razlozi za pretragu tvrtke:- Integrirajte ekstrakciju sadržaja u platforme za pretragu poduzeća za brzu povlačenje dokumenata.

  • Korištena cijevi za podatke:- Koristite izvedenu sadržaj za hranjenje bazama podataka ili modelima strojnog učenja za analizu.

Zajednička pitanja i rješenja za ekstrakciju sadržaja

  • Nekompletna ekstrakcija teksta:- Uvjerite se da je format dokumenta podržan i ispravno punjen.

  • Glavne identifikacijske pogreške:- Provjerite da dokument koristi dosljedne naslove (na primjer, naslove1, naslove2).

  • Prijedlog za raspodjelu pitanja:- Rješavajte mješovite stanice i složene stolne strukture s dodatnom logikom.

Izvlačenjem sadržaja s Aspose.Words u .NET-u, možete omogućiti snažne funkcije pretraživanja i indeksiranja za Word dokumente u vašim aplikacijama.

 Hrvatski