Extract Media from Word Documents

.NET में Word दस्तावेजों से पाठ, छवियों और मेटाडेटा निकालने के लिए कैसे

Word दस्तावेजों से पाठ, छवियों और मेटाडेटा का निष्कर्षण वॉर्ड विश्लेषण और प्रसंस्करण के लिए आवश्यक है. Aspose.Words for .NET के साथ, डेवलपर्स विभिन्न उपयोग के मामलों, जैसे सूचकांक, संग्रह, या सामग्री परिवर्तन की प्रोग्राम सामग्री और विशेषताओं को प्राप्त कर सकते हैं.

Prerequisites

  • स्थापित करें .NET एसडीके .
  • Aspose.Words NuGet पैकेज जोड़ें:dotnet add package Aspose.Words
  • एक शब्द दस्तावेज़ (document.docx) पाठ, छवियों और मेटाडेटा के साथ।

Word फ़ाइलों से सामग्री निकालने के लिए कदम-दर-चरण गाइड

1. शब्द दस्तावेज़ डाउनलोड करें

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

** स्पष्टीकरण:** यह कोड अतिरिक्त प्रसंस्करण के लिए विशिष्ट Word दस्तावेज़ को स्मृति में लोड करता है।

2. दस्तावेज़ से पाठ निकालना

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

** स्पष्टीकरण:** यह कोड लोड किए गए वर्ड दस्तावेज़ से सभी पाठ सामग्री निकालता है और इसे कंसोल पर प्रिंट करता है।

3. दस्तावेज़ से मेटाडेटा निकालना

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

** स्पष्टीकरण:** यह कोड शब्द दस्तावेज़ से शीर्षक, लेखक और निर्माण की तारीख के मेटाडेटा को निकालता है और प्रिंट करता है।

4. दस्तावेज़ से छवियों को निकालना

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

** स्पष्टीकरण:** यह कोड Word दस्तावेज़ से सभी छवियों को निकालता है और उन्हें परियोजना निर्देशिका में PNG फ़ाइलों के रूप में संग्रहीत करता है।

5. समाधान का परीक्षण करें

  • Ensure document.docx प्रोजेक्ट निर्देशिका में है।
  • प्रोग्राम को चलाएं और जांचें:- कंसोल के आउटपुट में निकाले गए पाठ।
  • मेटाडेटा विवरण प्रिंट।
  • प्रोजेक्ट फ़ोल्डर में सहेजे गए छवियों को निकाल दिया गया है।

मुख्य प्लेटफार्मों पर डिप्लोमा और चलाने के लिए कैसे

Windows

  • .NET Runtime स्थापित करें और एप्लिकेशन चलाएं।
  • अनुप्रयोग को कमांड लाइन के माध्यम से चलाकर परीक्षण करें।

Linux

  • .NET Runtime स्थापित करें।
  • एप्लिकेशन को चलाने या एक सर्वर पर होस्ट करने के लिए टर्मिनल कमांड का उपयोग करें।

माइक

  • Kestrel का उपयोग करके एप्लिकेशन चलाएं या इसे एक क्लाउड सेवा पर तैनात करें।

सामान्य समस्याएं और सुधार

  • अप्रत्याशित तस्वीरें:- यह सुनिश्चित करें कि दस्तावेज़ में अंतर्निहित छवियों और बाहरी रूप से जुड़े नहीं हैं।

    • मेटाडेटा लापता है:- सुनिश्चित करें कि दस्तावेज़ में मेटाडेटा गुण जैसे शीर्षक या लेखक सेट हैं।
  • ** लंबी फ़ाइल प्रसंस्करण** :- एक स्मृति-प्रभावी दृष्टिकोण का उपयोग करें, जैसे दस्तावेज़ के विशिष्ट अनुभागों को संसाधित करना।

इस गाइड के साथ, आप .NET के लिए Aspose.Words का उपयोग करके Word दस्तावेजों से प्रोग्रामिंग रूप से मूल्यवान सामग्री निकाल सकते हैं।

 हिंदी