Extract Word Document Content

Како извући садржај за претрагу и индексирање користећи Aspose.Words

Екстракција садржаја из Word докумената омогућава програмерима да омогући напредне могућности претраге и индексирања. Аспосе.Вордс за .НЕТ, можете програматски екстрактирати текст, наслове, табеле и метадане за интеграцију у тражиоце или базе података.

Принципи: Инструменти за извлачење садржаја из Word докумената

  • Install the .NET СДК for your operating system.
  • Додајте Aspose.Words у свој пројекат:dotnet add package Aspose.Words
  • Припремите Word документе који садрже текст, табеле и метадане за тестирање.

Корак по корак водич за извлачење садржаја из Word докумената

Корак 1: Преузмите документ речи

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Load the Word document
        string filePath = "DocumentToIndex.docx";
        Document doc = new Document(filePath);

        Console.WriteLine("Document loaded successfully.");
    }
}

Појашњење: Овај код уноси одређени Word документ у меморију.

Корак 2: Екстракција текстуалног садржаја

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract text from the document
        string text = doc.GetText();
        Console.WriteLine("Extracted Text:");
        Console.WriteLine(text);
    }
}

Појашњење: Овај код извлачи све текстуалне садржаје из преузетог Word документа.

Корак 3: Екстрактирајте главе и метадане

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract headings
        foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
        {
            if (para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading1 ||
                para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading2)
            {
                Console.WriteLine($"Heading: {para.GetText().Trim()}");
            }
        }

        // Extract metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
    }
}

Појашњење: Овај код извлачи наслове (глава 1 и наслов 2) и метадане (заглав и аутор) из документа.

Корак 4: Истраживање табела за индексирање

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        Document doc = new Document("DocumentToIndex.docx");

        // Extract tables from the document
        foreach (Table table in doc.GetChildNodes(NodeType.Table, true))
        {
            foreach (Row row in table.Rows)
            {
                foreach (Cell cell in row.Cells)
                {
                    Console.Write(cell.GetText().Trim() + "\t");
                }
                Console.WriteLine();
            }
        }
    }
}

Појашњење: Овај код извлачи све табеле из документа и штампа њихов садржај на конзолу.

Реал-Свет апликације за екстракцију садржаја

  • Индексирање претраживача:- Екстрактирајте текст и метадане како би се омогућило претраживање пуног текста у системима за управљање документима.

  • Анализа података:- Екстрактирајте табеле и анализирајте структуриране податке за извештаје или тастере.

  • Сакупљање садржаја:- Истражите наслове и кључне секције за генерисање резюме докумената.

Сценарије за претрагу и индексирање

  • Пријатељске решења за претрагу:- Интегришите екстракцију садржаја у корпоративне платформе за претрагу докумената.

  • Прилагођени подаци за цеви:- Користите извучену садржај за хране базе података или модели машинског учења за анализу.

Уобичајени проблеми и корекције за екстракцију садржаја

  • Непотпуна текстуална екстракција:- Уверите се да је формат документа подржаван и правилно наплаћен.

  • Главна идентификација грешака:- Проверите да документ користи конзистентне стилове наслова (на пример, наслов1, наслов2).

  • Службена табела са питањима:- Управљајте комбинованим ћелијама и сложеним структурама стола са додатном логиком.

Екстрактирајући садржај са Aspose.Words у .NET-у, можете омогућити моћне функције претраге и индексирања за Word документе у вашим апликацијама.

 Српски