Sådan udtrækkes tekst, billeder og metadata fra Word-dokumenter i .NET
Udtræk af tekst, billeder og metadata fra Word-dokumenter er essentielt for dokumentanalyse og -behandling. Med Aspose.Words for .NET, kan udviklere programmatisk hente dokumentindhold og -egenskaber til forskellige anvendelser, såsom indeksering, arkivering eller indholdstransformation.
Se også: Hvis dit mål er at udtrække indhold for søgemaskineindeksering, inklusive overskrifter, tabeller og struktureret metadata, se Sådan udtrækkes indhold til søgning og indeksering . Denne artikel fokuserer på billedudtrækning og metadata for dokumentegenskaber.
Forudsætninger
- Installer .NET SDK .
- Tilføj Aspose.Words NuGet-pakken:
dotnet add package Aspose.Words - Forbered et Word-dokument (
document.docx) med tekst, billeder og metadata.
Trin-for-trin guide til at udtrække indhold fra Word-filer
1. Load the Word Document
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}Forklaring: Denne kode indlæser det angivne Word-dokument i hukommelsen for videre behandling.
2. Extract Text from the Document
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}Forklaring: Denne kode udtrækker al tekstindhold fra det indlæste Word-dokument og udskriver det til konsollen.
3. Extract Metadata from the Document
using System;
using Aspose.Words;
using Aspose.Words.Properties;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}Forklaring: Denne kode udtrækker og udskriver titel-, forfatter- og oprettelsesdato-metadata fra Word-dokumentet.
4. Extract Images from the Document
using System;
using Aspose.Words;
using Aspose.Words.Drawing;
using Aspose.Words.Properties;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}Forklaring: Denne kode udtrækker alle billeder fra Word-dokumentet og gemmer dem som target="_blank" rel="noopener">
PNGfiler i projektmappen.
5. Test the Solution
- Sørg for
document.docxer i projektmappen. - Kør programmet og verificer:Udtrukket tekst i konsoloutput.Metadetaljer udskrevet.Udtrukne billeder gemt i projektmappen.
Indlejr et videolink
Windows
- Installer .NET-runtime og implementer applikationen.
- Test applikationen ved at køre den via kommandolinjen.
Linux
- Forklaring: Denne kode opretter et nyt Word-dokument, indsætter et cirkeldiagram med eksempeldata, og gemmer dokumentet.
- Brug terminalkommandoer til at udføre applikationen eller hoste den på en server.
macOS
- Kør applikationen ved hjælp af Kestrel eller implementer den på en cloud-tjeneste.
Almindelige problemer og rettelser
- Billeder ikke udtrukket: - Sørg for, at dokumentet indeholder indlejrede billeder og ikke eksternt linkede.
- Metadata mangler: - Verificer, at dokumentet har metadataegenskaber som Titel eller Forfatter indstillet.
- Behandling af store filer: - Brug en hukommelseseffektiv tilgang, såsom at behandle specifikke sektioner af dokumentet.
Med denne vejledning kan du programmatisk udtrække værdifuldt indhold fra Word-dokumenter ved hjælp af Aspose.Words til .NET.