Sådan udveksler du tekst, billeder og metadata fra Word-dokumenter i .NET
Udvinding af tekst, billeder og metadata fra Word-dokumenter er afgørende for dokumentanalyse og behandling. Aspose.Words for .NET giver udviklere mulighed for at programmetisk indhente dokumentindhold og egenskaber til forskellige brugssituationer, såsom indeksering, arkivering eller indholdsdannelse.
Forudsætninger
- Install the .Nettet SDK.
- Tilføj Aspose.Words NuGet pakke:
dotnet add package Aspose.Words
- Forbered et orddokument (
document.docx
) med tekst, billeder og metadata.
Step-by-step guide til at udveksle indhold fra Word-filer
1.Hold orddokumentet
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
Forklaring: Denne kode lader det angivne Word-dokument ind i hukommelsen for yderligere behandling.
2) Udvælg tekst fra dokumentet
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
Forklaring: Denne kode udveksler alt tekstindhold fra det lastede Word-dokument og trykker det på konsollen.
Udvælg metadata fra dokumentet
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
Forklaring: Denne kode udvider og trykker overskriften, forfatteren og oprettelsesdatoen metadata fra Word-dokumentet.
Udvælg billeder fra dokumentet
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
Forklaring: Denne kode ekstrakter alle billeder fra Word-dokumentet og gemmer dem som PNG-filer i projektdiagrammet.
5 – Prøv løsningen
- Ensure
document.docx
is in the project directory. - Gennemfør programmet og verificér:- Uddraget tekst i konsoludgangen.
- Metadata detaljer udskrives.
- Udvundet billeder gemt i projektmappen.
Hvordan at udstyre og køre på store platforme
Windows
- Installér .NET runtime og implementer applikationen.
- Test ansøgningen ved at køre den via kommandelinjen.
Linux
- Installation af .NET runtime.
- Brug terminalkommandoer til at køre appen eller opbevare den på en server.
af macOS
- Udfør appen ved hjælp af Kestrel eller indsend den på en cloud-tjeneste.
Vanlige problemer og fixer
Billeder, der ikke er udvundet:- Sørg for, at dokumentet indeholder indbyggede billeder og ikke eksternt forbundet.
Metadata mangler:- Sørg for, at dokumentet har metadataegenskaber som titel eller Author set.
Længe filbehandling:- Brug en hukommelseseffektiv tilgang, som f.eks. behandling af specifikke sektioner af dokumentet.
Med denne guide kan du programmeret udveksle værdifuldt indhold fra Word-dokumenter ved hjælp af Aspose.Words for .NET.