Extract Media from Word Documents

Kuinka poistaa tekstiä, kuvia ja metatietoja Word-asiakirjoista .NET: ssä

Tekstin, kuvien ja metatietojen poistaminen Word-asiakirjoista on välttämätöntä asiakirjan analysointiin ja käsittelyyn. Aspose.Words for .NET -ohjelmalla kehittäjät voivat ohjelmattisesti saada dokumentin sisältöä ja ominaisuuksia eri käyttötapauksissa, kuten indeksointi, arkistointi tai sisällön muuntaminen.

edellytykset

  • Install the Netti SDK.
  • Lisää Aspose.Words NuGet -paketti:dotnet add package Aspose.Words
  • Kirjoita tekstin teksti (document.docx) tekstin, kuvien ja metatietojen kanssa.

Vaiheittainen opas sisällön poistoon Word-tiedostoista

1. Lataa sana-asiakirja

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        // Step 1: Load the Word document
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Steps 2, 3, and 4 will be added below
    }
}

Selitys: Tämä koodi ladata määritellyn Word-asiakirjan muistiin jatkokäsittelyyn.

2. Poista teksti asiakirjasta

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        // Step 2: Extract Text
        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Steps 3 and 4 will be added below
    }
}

Selitys: Tämä koodi poistaa kaiken tekstin sisällön ladatusta Word-asiakirjasta ja tulostaa sen konsoliin.

3. Poista metatiedot asiakirjasta

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        // Step 3: Extract Metadata
        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4 will be added below
    }
}

Selitys: Tämä koodi poistaa ja tulostaa otsikon, tekijän ja luomapäivän metatietoja Word-asiakirjasta.

4. Poista kuvia asiakirjasta

using System;
using Aspose.Words;

class Program
{
    static void Main()
    {
        string filePath = "document.docx";
        Document doc = new Document(filePath);

        string text = doc.GetText();
        Console.WriteLine("Extracted Text: " + text);

        Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
        Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
        Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);

        // Step 4: Extract Images
        int imageCount = 0;
        foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
        {
            if (shape is Shape { HasImage: true } imageShape)
            {
                string imageFilePath = $"Image_{++imageCount}.png";
                imageShape.ImageData.Save(imageFilePath);
                Console.WriteLine($"Saved Image: {imageFilePath}");
            }
        }

        Console.WriteLine("Content extraction completed.");
    }
}

Selitys: Tämä koodi poistaa kaikki kuvat Word-asiakirjasta ja tallentaa ne PNG-tiedostoina projektirekisteriin.

5. Kokeile ratkaisua

  • Ensure document.docx is in the project directory.
  • Käynnistä ohjelma ja tarkista:- Sisältää tekstiä konsolin tuonnissa.
  • Tiedot metadata tulostettu.
  • Tuotetut kuvat tallennetaan projektilaatikkoon.

Miten laittaa ja käynnistää suurilla alustoilla

Windowsin

  • Asenna .NET runtime ja käytä sovellusta.
  • Kokeile sovellusta käynnistämällä sitä komentolinjan kautta.

Linuxin

  • Asenna .NET runtime.
  • Käytä terminaalisia komentoja sovelluksen suorittamiseen tai sen ylläpitämiseen palvelimella.

macOS

  • Käynnistä sovellus Kestrelin avulla tai käytä sitä pilvipalvelussa.

Yhteiset ongelmat ja korjaukset

  • Kuvat, jotka eivät ole poistettu:- Varmista, että asiakirja sisältää sisäänrakennettuja kuvia ja ei ulkoisesti linkitettyjä.

  • Metatiedot puuttuvat:- Varmista, että asiakirjalla on metadata ominaisuuksia, kuten otsikko tai tekijä.

  • Suuri tiedostojen käsittely:- Käytä muistin tehokasta lähestymistapaa, kuten asiakirjan tiettyjen osien käsittelyä.

Tämän oppaan avulla voit ohjelmattisesti poistaa arvokasta sisältöä Word-asiakirjoista käyttämällä Aspose.Words for .NET.

 Suomi