كيفية استخراج النص والصور والبيانات النمطية من مستندات Word في .NET
إن استخراج النص والصور والبيانات الميتة من مستندات Word أمر ضروري لتحليل المستندات ومعالجتها.مع Aspose.Words for .NET، يمكن للمطورين استرداد محتوى المستندات والخصائص بشكل برمجي لحالات الاستخدام المختلفة، مثل التصنيف أو الأرشيف أو تحويل المحتوى.
المتطلبات
- تثبيت The شبكة .NET SDK .
- إضافة حزمة Aspose.Words NuGet:
dotnet add package Aspose.Words
- إعداد وثيقة كلمة (
document.docx
مع النص والصور والبيانات الميتا.
دليل خطوة بخطوة لاستخراج المحتوى من ملفات Word
1- تحميل وثيقة الكلمة
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
توضيح: هذا الرمز يحمل وثيقة Word المحددة في الذاكرة لمزيد من المعالجة.
2- استخراج النص من الوثيقة
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
توضيح: يستخرج هذا الرمز كل محتوى النص من وثيقة Word المحمولة ويطبعها على وحدة التحكم.
3- استخراج البيانات الميتا من الوثيقة
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
توضيح: يخرج هذا الرمز ويطبع العنوان والكاتب وتاريخ إنشاء البيانات الميتا من وثيقة Word.
4- استخراج الصور من الوثيقة
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
توضيح: يستخرج هذا الرمز جميع الصور من وثيقة Word ويحفظها كملفات PNG في دليل المشروع.
5- اختبار الحل
- ضمان
document.docx
في مكتب المشروع. - قم بتشغيل البرنامج والتحقق من:- النص المستخرج في إخراج الكونسول.
- تفاصيل الميتاتايات المطبوعة.
- تم استخراج الصور التي تم حفظها في مجلد المشروع.
كيفية وضع وتشغيل على المنصات الرئيسية
ويندوز
- قم بتثبيت وقت التشغيل .NET وتشغيل التطبيق.
- اختبار التطبيق عن طريق تشغيله عبر خط الأوامر.
لينكس
- قم بتثبيت .NET Runtime.
- استخدم الأوامر النهائية لتنفيذ التطبيق أو استضافةها على خادم.
ماكوس
- قم بتشغيل التطبيق باستخدام Kestrel أو نشره على خدمة السحابة.
المشاكل المشتركة والتصحيح
الصور التي لم يتم استخراجها:- تأكد من أن المستند يحتوي على صور مدمجة وليس تلك المرتبطة خارجيًا.
البيانات المفقودة:- تأكد من أن الوثيقة لديها خصائص البيانات الميتة مثل العنوان أو مجموعة المؤلف.
معالجة الملفات الكبيرة:- استخدم نهجًا فعالًا في الذاكرة ، مثل معالجة أجزاء محددة من المستند.
باستخدام هذا الدليل ، يمكنك استخراج محتوى قيم ببرمجيات من مستندات Word باستخدام Aspose.Words for .NET.