Extract Media from Word Documents

چگونه متن، تصاویر و متاداده را از اسناد ورد در .NET استخراج کنیم

استخراج متن، تصاویر و متا داده ها از اسناد Word برای تجزیه و تحلیل و پردازش اسناد ضروری است. Aspose.Words برای .NET، توسعه دهندگان می توانند به طور برنامه نویسی محتوای اسناد و ویژگی ها را برای موارد مختلف استفاده مانند فهرست، آرشیو و یا تبدیل محتوا به دست آورند.

پیش شرط

  • نصب آن .NET SDK .
  • اضافه کردن بسته Aspose.Words NuGet:dotnet add package Aspose.Words
  • در این مقاله به عنوان یک کلمه (document.docx) با متن، تصاویر و متا داده ها.

راهنمای گام به گام برای استخراج محتوا از فایل های Word

۱- کلمه را وارد کنید

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

**توضیح: **این کد اسناد Word مشخص شده را برای پردازش بیشتر به حافظه اضافه می کند.

۲- استخراج متن از اسناد

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

**توضیح: **این کد تمام محتوای متن را از سند Word بارگذاری شده استخراج می کند و آن را به کنسول چاپ می کند.

3- استخراج داده های متا از اسناد

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

توضیح: این کد عنوان، نویسنده و تاریخ ایجاد را از سند Word استخراج و چاپ می کند.

۴- عکس ها را از سند خارج کنید

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

**توضیح: **این کد تمام تصاویر را از سند Word استخراج می کند و آنها را به عنوان فایل های PNG در دایرکتوری پروژه ذخیره می کند.

۵- آزمایش راه حل

  • اطمینان document.docx در دایرکتوری پروژه است.
  • برنامه را اجرا کنید و بررسی کنید:- متن استخراج شده در خروجی کنسول
  • مشخصات متابولیک چاپ شده
  • تصاویر استخراج شده در پوشه پروژه ذخیره شده است.

چگونه در پلتفرم های بزرگ راه اندازی و اجرا کنیم

ویندوز

  • زمان اجرا .NET را نصب کنید و برنامه را راه اندازی کنید.
  • برنامه را از طریق خط فرمان اجرا کنید.

لینوکس

  • زمان اجرا .NET را نصب کنید.
  • از دستورالعمل های ترمینال برای اجرای برنامه یا میزبانی آن در یک سرور استفاده کنید.

ماکوس

  • برنامه را با استفاده از Kestrel اجرا کنید یا آن را در یک سرویس ابر نصب کنید.

مشکلات و اصلاحات مشترک

  • تصویرهای غیرمستقیم:- اطمینان حاصل کنید که اسناد حاوی تصاویر داخلی و غیر خارجی هستند.

  • تغییرمسیر از دست رفته:- اطمینان حاصل کنید که سند دارای ویژگی های متا داده مانند عنوان یا مجموعه نویسنده است.

  • پردازش فایل های بزرگ:- از یک رویکرد موثر حافظه استفاده کنید، مانند پردازش بخش های خاصی از سند.

با استفاده از این راهنمای، شما می توانید به طور برنامه نویسی محتوای ارزشمند را از اسناد Word با استفاده از Aspose.Words برای .NET استخراج کنید.

 فارسی