Како извући садржај за претрагу и индексирање користећи Aspose.Words
Екстракција садржаја из Word докумената омогућава програмерима да омогући напредне могућности претраге и индексирања. Аспосе.Вордс за .НЕТ, можете програматски екстрактирати текст, наслове, табеле и метадане за интеграцију у тражиоце или базе података.
Принципи: Инструменти за извлачење садржаја из Word докумената
- Install the .NET СДК for your operating system.
- Додајте Aspose.Words у свој пројекат:
dotnet add package Aspose.Words
- Припремите Word документе који садрже текст, табеле и метадане за тестирање.
Корак по корак водич за извлачење садржаја из Word докумената
Корак 1: Преузмите документ речи
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Load the Word document
string filePath = "DocumentToIndex.docx";
Document doc = new Document(filePath);
Console.WriteLine("Document loaded successfully.");
}
}
Појашњење: Овај код уноси одређени Word документ у меморију.
Корак 2: Екстракција текстуалног садржаја
using System;
using Aspose.Words;
class Program
{
static void Main()
{
Document doc = new Document("DocumentToIndex.docx");
// Extract text from the document
string text = doc.GetText();
Console.WriteLine("Extracted Text:");
Console.WriteLine(text);
}
}
Појашњење: Овај код извлачи све текстуалне садржаје из преузетог Word документа.
Корак 3: Екстрактирајте главе и метадане
using System;
using Aspose.Words;
class Program
{
static void Main()
{
Document doc = new Document("DocumentToIndex.docx");
// Extract headings
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
{
if (para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading1 ||
para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading2)
{
Console.WriteLine($"Heading: {para.GetText().Trim()}");
}
}
// Extract metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
}
}
Појашњење: Овај код извлачи наслове (глава 1 и наслов 2) и метадане (заглав и аутор) из документа.
Корак 4: Истраживање табела за индексирање
using System;
using Aspose.Words;
class Program
{
static void Main()
{
Document doc = new Document("DocumentToIndex.docx");
// Extract tables from the document
foreach (Table table in doc.GetChildNodes(NodeType.Table, true))
{
foreach (Row row in table.Rows)
{
foreach (Cell cell in row.Cells)
{
Console.Write(cell.GetText().Trim() + "\t");
}
Console.WriteLine();
}
}
}
}
Појашњење: Овај код извлачи све табеле из документа и штампа њихов садржај на конзолу.
Реал-Свет апликације за екстракцију садржаја
Индексирање претраживача:- Екстрактирајте текст и метадане како би се омогућило претраживање пуног текста у системима за управљање документима.
Анализа података:- Екстрактирајте табеле и анализирајте структуриране податке за извештаје или тастере.
Сакупљање садржаја:- Истражите наслове и кључне секције за генерисање резюме докумената.
Сценарије за претрагу и индексирање
Пријатељске решења за претрагу:- Интегришите екстракцију садржаја у корпоративне платформе за претрагу докумената.
Прилагођени подаци за цеви:- Користите извучену садржај за хране базе података или модели машинског учења за анализу.
Уобичајени проблеми и корекције за екстракцију садржаја
Непотпуна текстуална екстракција:- Уверите се да је формат документа подржаван и правилно наплаћен.
Главна идентификација грешака:- Проверите да документ користи конзистентне стилове наслова (на пример, наслов1, наслов2).
Службена табела са питањима:- Управљајте комбинованим ћелијама и сложеним структурама стола са додатном логиком.
Екстрактирајући садржај са Aspose.Words у .NET-у, можете омогућити моћне функције претраге и индексирања за Word документе у вашим апликацијама.