Kako izvesti tekst, slike i metapodatke iz Word dokumenata u .NET-u
Ekstrakcija teksta, slika i metapodataka iz Word dokumenata je neophodna za analizu i obradu dokumenta. Aspose.Words za .NET, razvijalci mogu programski povući sadržaj dokumenta i svojstva za različite slučajeve korištenja, kao što su indeksiranje, arhiviranje ili pretvaranje sadržaja.
Preduzeća
- Install the Sljedeći članakNET SDK.
- Dodajte paket Aspose.Words NuGet:
dotnet add package Aspose.Words
- Slijedeći članakSlijedeći članakSlijedeći članakSlijedeći članak(
document.docx
) sa tekstom, slikama i metapodatkom.
Korak po korak vodič za uklanjanje sadržaja iz Word datoteka
1. preuzmite riječni dokument
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
Objasnjenje: Ovaj kod preuzima određeni Word dokument u memoriju za daljnju obradu.
2. izvući tekst iz dokumenta
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
Objasnjenje: Ovaj kod izvlači sve tekstne sadržaje iz punog Word dokumenta i štampa ga na konzolu.
Uklanjanje metapodataka iz dokumenta
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
Objasnjenje: Ovaj kod izvlači i štampa metapodatke o naslovu, autoru i datumu stvaranja iz Word dokumenta.
4. izvući slike iz dokumenta
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
Objasnjenje: Ovaj kod izvlači sve slike iz Word dokumenta i čuva ih kao PNG datoteke u direktoriju projekta.
5. ispitati rješenje
- Ensure
document.docx
is in the project directory. - Provedite program i provjerite:- Izvlačen tekst u konzoli izlaska.
- Metodološki podaci su ispisani.
- Izuzete slike sačuvane u dosjeu projekta.
Kako raspoređivati i trčati na velikim platformama
Windows
- Instalirajte .NET runtime i pokrenite aplikaciju.
- Provjerite aplikaciju pokretanjem preko zapovjedne linije.
Linux
- Instalirajte vrijeme rada .NET.
- Koristite terminalne zapovijedi kako biste izvršili aplikaciju ili je domaćin na serveru.
MacOS
- Izvedite aplikaciju pomoću Kestrela ili ga postavite na uslugu u oblaku.
Zajednička pitanja i rješenja
Fotografije koje nisu prikupljene:- Uvjerite se da dokument sadrži ugrađene slike, a ne one koje su vanjski povezane.
Izgubljeni metapodatci:- Provjerite da dokument ima svojstva metapodataka kao što su Naslov ili Autor set.
Proizvodnja velikih datoteka:- Koristite pamćenje učinkovit pristup, kao što je obradu određenih dijelova dokumenta.
S ovim vodičem možete programski izvući vrijednu sadržaj iz Word dokumenata pomoću Aspose.Words za .NET.