Kuinka poistaa tekstiä, kuvia ja metatietoja Word-asiakirjoista .NET: ssä
Tekstin, kuvien ja metatietojen poistaminen Word-asiakirjoista on välttämätöntä asiakirjan analysointiin ja käsittelyyn. Aspose.Words for .NET -ohjelmalla kehittäjät voivat ohjelmattisesti saada dokumentin sisältöä ja ominaisuuksia eri käyttötapauksissa, kuten indeksointi, arkistointi tai sisällön muuntaminen.
edellytykset
- Install the Netti SDK.
- Lisää Aspose.Words NuGet -paketti:
dotnet add package Aspose.Words
- Kirjoita tekstin teksti (
document.docx
) tekstin, kuvien ja metatietojen kanssa.
Vaiheittainen opas sisällön poistoon Word-tiedostoista
1. Lataa sana-asiakirja
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
Selitys: Tämä koodi ladata määritellyn Word-asiakirjan muistiin jatkokäsittelyyn.
2. Poista teksti asiakirjasta
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
Selitys: Tämä koodi poistaa kaiken tekstin sisällön ladatusta Word-asiakirjasta ja tulostaa sen konsoliin.
3. Poista metatiedot asiakirjasta
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
Selitys: Tämä koodi poistaa ja tulostaa otsikon, tekijän ja luomapäivän metatietoja Word-asiakirjasta.
4. Poista kuvia asiakirjasta
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
Selitys: Tämä koodi poistaa kaikki kuvat Word-asiakirjasta ja tallentaa ne PNG-tiedostoina projektirekisteriin.
5. Kokeile ratkaisua
- Ensure
document.docx
is in the project directory. - Käynnistä ohjelma ja tarkista:- Sisältää tekstiä konsolin tuonnissa.
- Tiedot metadata tulostettu.
- Tuotetut kuvat tallennetaan projektilaatikkoon.
Miten laittaa ja käynnistää suurilla alustoilla
Windowsin
- Asenna .NET runtime ja käytä sovellusta.
- Kokeile sovellusta käynnistämällä sitä komentolinjan kautta.
Linuxin
- Asenna .NET runtime.
- Käytä terminaalisia komentoja sovelluksen suorittamiseen tai sen ylläpitämiseen palvelimella.
macOS
- Käynnistä sovellus Kestrelin avulla tai käytä sitä pilvipalvelussa.
Yhteiset ongelmat ja korjaukset
Kuvat, jotka eivät ole poistettu:- Varmista, että asiakirja sisältää sisäänrakennettuja kuvia ja ei ulkoisesti linkitettyjä.
Metatiedot puuttuvat:- Varmista, että asiakirjalla on metadata ominaisuuksia, kuten otsikko tai tekijä.
Suuri tiedostojen käsittely:- Käytä muistin tehokasta lähestymistapaa, kuten asiakirjan tiettyjen osien käsittelyä.
Tämän oppaan avulla voit ohjelmattisesti poistaa arvokasta sisältöä Word-asiakirjoista käyttämällä Aspose.Words for .NET.