.NET में Word दस्तावेजों से पाठ, छवियों और मेटाडेटा निकालने के लिए कैसे
Word दस्तावेजों से पाठ, छवियों और मेटाडेटा का निष्कर्षण वॉर्ड विश्लेषण और प्रसंस्करण के लिए आवश्यक है. Aspose.Words for .NET के साथ, डेवलपर्स विभिन्न उपयोग के मामलों, जैसे सूचकांक, संग्रह, या सामग्री परिवर्तन की प्रोग्राम सामग्री और विशेषताओं को प्राप्त कर सकते हैं.
Prerequisites
- स्थापित करें .NET एसडीके .
- Aspose.Words NuGet पैकेज जोड़ें:
dotnet add package Aspose.Words
- एक शब्द दस्तावेज़ (
document.docx
) पाठ, छवियों और मेटाडेटा के साथ।
Word फ़ाइलों से सामग्री निकालने के लिए कदम-दर-चरण गाइड
1. शब्द दस्तावेज़ डाउनलोड करें
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
** स्पष्टीकरण:** यह कोड अतिरिक्त प्रसंस्करण के लिए विशिष्ट Word दस्तावेज़ को स्मृति में लोड करता है।
2. दस्तावेज़ से पाठ निकालना
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
** स्पष्टीकरण:** यह कोड लोड किए गए वर्ड दस्तावेज़ से सभी पाठ सामग्री निकालता है और इसे कंसोल पर प्रिंट करता है।
3. दस्तावेज़ से मेटाडेटा निकालना
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
** स्पष्टीकरण:** यह कोड शब्द दस्तावेज़ से शीर्षक, लेखक और निर्माण की तारीख के मेटाडेटा को निकालता है और प्रिंट करता है।
4. दस्तावेज़ से छवियों को निकालना
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
** स्पष्टीकरण:** यह कोड Word दस्तावेज़ से सभी छवियों को निकालता है और उन्हें परियोजना निर्देशिका में PNG फ़ाइलों के रूप में संग्रहीत करता है।
5. समाधान का परीक्षण करें
- Ensure
document.docx
प्रोजेक्ट निर्देशिका में है। - प्रोग्राम को चलाएं और जांचें:- कंसोल के आउटपुट में निकाले गए पाठ।
- मेटाडेटा विवरण प्रिंट।
- प्रोजेक्ट फ़ोल्डर में सहेजे गए छवियों को निकाल दिया गया है।
मुख्य प्लेटफार्मों पर डिप्लोमा और चलाने के लिए कैसे
Windows
- .NET Runtime स्थापित करें और एप्लिकेशन चलाएं।
- अनुप्रयोग को कमांड लाइन के माध्यम से चलाकर परीक्षण करें।
Linux
- .NET Runtime स्थापित करें।
- एप्लिकेशन को चलाने या एक सर्वर पर होस्ट करने के लिए टर्मिनल कमांड का उपयोग करें।
माइक
- Kestrel का उपयोग करके एप्लिकेशन चलाएं या इसे एक क्लाउड सेवा पर तैनात करें।
सामान्य समस्याएं और सुधार
अप्रत्याशित तस्वीरें:- यह सुनिश्चित करें कि दस्तावेज़ में अंतर्निहित छवियों और बाहरी रूप से जुड़े नहीं हैं।
- मेटाडेटा लापता है:- सुनिश्चित करें कि दस्तावेज़ में मेटाडेटा गुण जैसे शीर्षक या लेखक सेट हैं।
** लंबी फ़ाइल प्रसंस्करण** :- एक स्मृति-प्रभावी दृष्टिकोण का उपयोग करें, जैसे दस्तावेज़ के विशिष्ट अनुभागों को संसाधित करना।
इस गाइड के साथ, आप .NET के लिए Aspose.Words का उपयोग करके Word दस्तावेजों से प्रोग्रामिंग रूप से मूल्यवान सामग्री निकाल सकते हैं।