Extract Media from Word Documents

كيفية استخراج النص والصور والبيانات النمطية من مستندات Word في .NET

إن استخراج النص والصور والبيانات الميتة من مستندات Word أمر ضروري لتحليل المستندات ومعالجتها.مع Aspose.Words for .NET، يمكن للمطورين استرداد محتوى المستندات والخصائص بشكل برمجي لحالات الاستخدام المختلفة، مثل التصنيف أو الأرشيف أو تحويل المحتوى.

المتطلبات

  • تثبيت The شبكة .NET SDK .
  • إضافة حزمة Aspose.Words NuGet:dotnet add package Aspose.Words
  • إعداد وثيقة كلمة (document.docxمع النص والصور والبيانات الميتا.

دليل خطوة بخطوة لاستخراج المحتوى من ملفات Word

1- تحميل وثيقة الكلمة

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

توضيح: هذا الرمز يحمل وثيقة Word المحددة في الذاكرة لمزيد من المعالجة.

2- استخراج النص من الوثيقة

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

توضيح: يستخرج هذا الرمز كل محتوى النص من وثيقة Word المحمولة ويطبعها على وحدة التحكم.

3- استخراج البيانات الميتا من الوثيقة

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

توضيح: يخرج هذا الرمز ويطبع العنوان والكاتب وتاريخ إنشاء البيانات الميتا من وثيقة Word.

4- استخراج الصور من الوثيقة

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

توضيح: يستخرج هذا الرمز جميع الصور من وثيقة Word ويحفظها كملفات PNG في دليل المشروع.

5- اختبار الحل

  • ضمان document.docx في مكتب المشروع.
  • قم بتشغيل البرنامج والتحقق من:- النص المستخرج في إخراج الكونسول.
  • تفاصيل الميتاتايات المطبوعة.
  • تم استخراج الصور التي تم حفظها في مجلد المشروع.

كيفية وضع وتشغيل على المنصات الرئيسية

ويندوز

  • قم بتثبيت وقت التشغيل .NET وتشغيل التطبيق.
  • اختبار التطبيق عن طريق تشغيله عبر خط الأوامر.

لينكس

  • قم بتثبيت .NET Runtime.
  • استخدم الأوامر النهائية لتنفيذ التطبيق أو استضافةها على خادم.

ماكوس

  • قم بتشغيل التطبيق باستخدام Kestrel أو نشره على خدمة السحابة.

المشاكل المشتركة والتصحيح

  • الصور التي لم يتم استخراجها:- تأكد من أن المستند يحتوي على صور مدمجة وليس تلك المرتبطة خارجيًا.

  • البيانات المفقودة:- تأكد من أن الوثيقة لديها خصائص البيانات الميتة مثل العنوان أو مجموعة المؤلف.

  • معالجة الملفات الكبيرة:- استخدم نهجًا فعالًا في الذاكرة ، مثل معالجة أجزاء محددة من المستند.

باستخدام هذا الدليل ، يمكنك استخراج محتوى قيم ببرمجيات من مستندات Word باستخدام Aspose.Words for .NET.

 عربي