לחלץ מדיה מתוך מסמכי Word

כיצד לחלץ טקסט, תמונות ומטא-נתונים מקבצי Word ב-.NET

מיצוי טקסט, תמונות ומטא-דאטה ממסמכי Word הוא חיוני לניתוח ועיבוד מסמכים. עם Aspose.Words for .NET, מפתחים יכולים לשחזר תכני מסמך ופרופרטיז בצורה תכנותית עבור מקרים שונים, כמו אינדוקס, ארכוב או המרת תוכן.

דרישות מוקדמות

  1. התקן את .NET SDK.
  2. הוסף את חבילת NuGet של Aspose.Words: dotnet add package Aspose.Words
  3. הכין מסמך Word (document.docx) עם טקסט, תמונות ומטא-דאטה.

מדריך שלב-אחר-שלב למיצוי תוכן מקבצי Word

1. טען את מסמך ה-Word

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // שלב 1: טען את מסמך ה-Word
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // שלבים 2, 3 ו-4 יתווספו למטה
    }
}

הסבר: קוד זה טוען את מסמך ה-Word המוגדר בזיכרון לצורך עיבוד נוסף.

2. מיצוי טקסט מהמסמך

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // שלב 2: מיצוי טקסט
        string text = doc.GetText();
        Console.WriteLine("טקסט שהוצא: " + text);

        // שלבים 3 ו-4 יתווספו למטה
    }
}

הסבר: קוד זה ממצה את כל התוכן הטקסטואלי מהמסמך שהוטען ומדפיס אותו לקונסולה.

3. מיצוי מטא-דאטה מהמסמך

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("טקסט שהוצא: " + text);

        // שלב 3: מיצוי מטא-דאטה
        Console.WriteLine("כותרת: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("מחבר: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("תאריך יצירה: " + doc.BuiltInDocumentProperties.CreatedTime);

        // שלב 4 יתווסף למטה
    }
}

הסבר: קוד זה ממצה ומדפיס את הכותרת, המחבר ואת תאריך היצירה של המטא-דאטה מהמסמך.

4. מיצוי תמונות מהמסמך

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("טקסט שהוצא: " + text);

        Console.WriteLine("כותרת: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("מחבר: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("תאריך יצירה: " + doc.BuiltInDocumentProperties.CreatedTime);

        // שלב 4: מיצוי תמונות
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"תמונה נשמרה: {imageFilePath}");
            }
        }

        Console.WriteLine("מיצוי התוכן הושלם.");
    }
}

הסבר: קוד זה ממצה את כל התמונות ממסמך ה-Word ושומר אותן כקבצי PNG בתיקיית הפרויקט.

5. בדוק את הפתרון

  • ודא ש-document.docx נמצא בתיקיית הפרויקט.
  • הרץ את התוכנית ואמת:
    • טקסט שהוצא בהדפסת קונסולה.
    • פרטי מטא-דאטה מודפסים.
    • תמונות שהוצאו נשמרו בתיקיית הפרויקט.

כיצד לפרוס ולהריץ על פלטפורמות עיקריות

Windows

  1. התקן את סביבת הריצה של .NET ופרוס את היישום.
  2. בדוק את היישום על ידי הרצה שלו דרך שורת הפקודה.

Linux

  1. התקן את סביבת הריצה של .NET.
  2. השתמש בפקודות טרמינל כדי להריץ את היישום או לארח אותו על שרת.

macOS

  1. הרץ את היישום באמצעות Kestrel או פרוס אותו בשירות ענן.

בעיות נפוצות ותיקונים

  1. תמונות לא הוצאו:
    • ודא שהמסמך מכיל תמונות מוטמעות ולא קישורים חיצוניים.
  2. מטא-דאטה חסרה:
    • אמת שהמסמך מכיל פרופרטיז של מטא-דאטה כמו כותרת או מחבר.
  3. עיבוד קבצים גדולים:
    • השתמש בגישה חסכונית בזיכרון, כמו עיבוד חלקים ספציפיים של המסמך.

עם מדריך זה, תוכל למצות תוכן יקר ערך ממסמכי Word באמצעות Aspose.Words for .NET.

 Ελληνικά