Aspose.Words का उपयोग करके खोज और इंडेक्सिंग के लिए सामग्री निकालने के तरीके
Word दस्तावेजों से सामग्री निकालने से डेवलपर्स को उन्नत खोज और इंडेक्सिंग क्षमताओं को सक्षम करने की अनुमति मिलती है. Aspose.Words for .NET के साथ, आप प्रोग्राम के माध्यम से पाठ, शीर्षक, तालिकाओं और मेटाडेटा को खोज इंजन या डेटाबेस में एकीकरण के लिए निकाल सकते हैं.
आवश्यकताएँ: Word दस्तावेजों से सामग्री निकालने के लिए उपकरण
- स्थापित करें .NET एसडीके आपके ऑपरेटिंग सिस्टम के लिए।
- अपने प्रोजेक्ट में Aspose.Words जोड़ें:
dotnet add package Aspose.Words
- परीक्षण के लिए पाठ, तालिकाओं और मेटाडेटा शामिल वर्ड दस्तावेजों को तैयार करें।
Word दस्तावेजों से सामग्री निकालने के लिए कदम-दर-चरण गाइड
चरण 1: शब्द दस्तावेज़ लोड करें
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Load the Word document
string filePath = "DocumentToIndex.docx";
Document doc = new Document(filePath);
Console.WriteLine("Document loaded successfully.");
}
}
** स्पष्टीकरण:** यह कोड निर्दिष्ट Word दस्तावेज़ को स्मृति में लोड करता है।
चरण 2: पाठ सामग्री निकालना
using System;
using Aspose.Words;
class Program
{
static void Main()
{
Document doc = new Document("DocumentToIndex.docx");
// Extract text from the document
string text = doc.GetText();
Console.WriteLine("Extracted Text:");
Console.WriteLine(text);
}
}
** स्पष्टीकरण:** यह कोड लोड किए गए वर्ड दस्तावेज़ से सभी पाठ सामग्री निकालता है।
चरण 3: शीर्षक और मेटाडेटा निकालना
using System;
using Aspose.Words;
class Program
{
static void Main()
{
Document doc = new Document("DocumentToIndex.docx");
// Extract headings
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
{
if (para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading1 ||
para.ParagraphFormat.StyleIdentifier == StyleIdentifier.Heading2)
{
Console.WriteLine($"Heading: {para.GetText().Trim()}");
}
}
// Extract metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
}
}
** स्पष्टीकरण:** इस कोड में दस्तावेज़ से शीर्षक (हैड 1 और हेड 2) और मेटाडेटा (शब्द और लेखक) निकाले जाते हैं।
चरण 4: सूचकांक के लिए तालिकाओं को निकालना
using System;
using Aspose.Words;
class Program
{
static void Main()
{
Document doc = new Document("DocumentToIndex.docx");
// Extract tables from the document
foreach (Table table in doc.GetChildNodes(NodeType.Table, true))
{
foreach (Row row in table.Rows)
{
foreach (Cell cell in row.Cells)
{
Console.Write(cell.GetText().Trim() + "\t");
}
Console.WriteLine();
}
}
}
}
** स्पष्टीकरण:** यह कोड दस्तावेज़ से सभी तालिकाओं को निकालता है और उनकी सामग्री को कंसोल पर प्रिंट करता है।
सामग्री निकालने के लिए वास्तविक दुनिया अनुप्रयोग
** खोज इंजन इंडेक्सिंग** :- दस्तावेज़ प्रबंधन प्रणालियों में पूर्ण पाठ खोज को सक्षम करने के लिए पाठ और मेटाडेटा निकालना।
डेटा विश्लेषण:- तालिकाओं को निकालना और रिपोर्ट या डैशबोर्ड के लिए संरचित डेटा का विश्लेषण करना।
सामग्री संक्षेप में:- दस्तावेज़ सारांश बनाने के लिए शीर्षक और कुंजी अनुभाग निकालना।
खोज और इंडेक्सिंग के लिए तैनात परिदृश्य
** उद्यम खोज समाधान** :- त्वरित दस्तावेज़ रिसेप्शन के लिए व्यवसाय खोज प्लेटफार्मों में सामग्री निष्कर्षण को एकीकृत करें।
** कस्टम डेटा पाइपलाइन** :- विश्लेषण के लिए खाद्य डेटाबेस या मशीन सीखने के मॉडलों का उपयोग करें।
सामग्री निकालने के लिए सामान्य मुद्दे और सुधार
असफल पाठ निष्कर्षण :- यह सुनिश्चित करें कि दस्तावेज़ प्रारूप समर्थित है और सही ढंग से लोड किया गया है।
** शीर्षक पहचान त्रुटियों** :- यह सुनिश्चित करें कि दस्तावेज़ में लगातार शीर्षक शैलियों का उपयोग किया जाता है (उदाहरण के लिए, हेडिंग 1, हेडींग 2)।
- विपक्षी दलों के मुद्दों की सूची:- अतिरिक्त तर्क के साथ मिश्रित कोशिकाओं और जटिल टेबल संरचनाओं का संचालन करें।
.NET में Aspose.Words के साथ सामग्री निकालकर, आप अपने अनुप्रयोगों में Word दस्तावेजों के लिए शक्तिशाली खोज और सूचकांक सुविधाओं को सक्षम कर सकते हैं।