Extract Media from Word Documents

Cum să extrageți text, imagini și metadata din documentele Word în .NET

Extragerea textului, imaginilor si metadata din documentele Word este esentiala pentru analiza si prelucrarea documentelor. Aspose.Words pentru .NET, dezvoltatorii pot retrage in mod programat conținutul documentului si proprietati pentru diferite cazuri de utilizare, cum ar fi indexarea, arhivarea sau transformarea continutului.

Prevederile

  • Install the Cuvânt cheie SDK.
  • Adăugați pachetul Aspose.Words NuGet:dotnet add package Aspose.Words
  • Pregătiți un document (document.docxcu text, imagini şi metadata.

Ghid pas cu pas pentru a extrage conținut din fișierele Word

1. încărcați documentul de cuvânt

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Explicare: Acest cod încărcă documentul Word specificat în memorie pentru prelucrarea ulterioară.

2. extrage textul din document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Explicare: Acest cod extrage tot conținutul text din documentul încărcat Word și îl imprimă pe consola.

Extrageți metadata din document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Explicare: Acest cod extrage și imprimează metadatele de titlu, autor și data creării din documentul Word.

Extrageți imagini din document

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Explicare: Acest cod extrage toate imaginile din documentul Word și le salvează ca fișiere PNG în directorul proiectului.

5.Testarea soluției

  • Ensure document.docx is in the project directory.
  • Executați programul și verificați:- Textul extras în producția consolei.
  • Detalii metadata imprimate.
  • Imagini extrase salvate în folderul de proiect.

Cum de a deplasa și de a rula pe platforme majore

Windows

  • Instalați timpul de funcționare .NET și implementați aplicația.
  • Testarea aplicației prin executarea acesteia prin linia de comandă.

Linuxul

  • Instalarea timpului de funcționare .NET.
  • Utilizați comenzi terminale pentru a executa aplicația sau pentru a o găzdui pe un server.

macos

  • Executați aplicația folosind Kestrel sau deplasați-o pe un serviciu cloud.

Probleme și fixări comune

  • Imagini care nu au fost extrase:- Asigurați-vă că documentul conține imagini încorporate și nu cele legate extern.

  • Metadata lipsită:- Asigurați-vă că documentul are proprietăți de metadata, cum ar fi setul Titlu sau Autor.

  • Procesarea fișierelor de lungă durată:- Utilizați o abordare eficientă în memorie, cum ar fi prelucrarea secțiunilor specifice ale documentului.

Cu acest ghid, puteți extrage în mod programat conținuturi valoroase din documentele Word folosind Aspose.Words pentru .NET.

 Română