Hogyan lehet kivonni a szöveget, a képeket és a metaadatokat a Word dokumentumok .NET
A Word dokumentumokból származó szöveg, képek és metaadatok kivonása alapvető fontosságú az elemzéshez és feldolgozáshoz. Aspose.Words for .NET segítségével a fejlesztők szoftveres módon visszanyerhetik a Dokumentum tartalmát és tulajdonságait a különböző felhasználási esetekben, például az indexeléshez, az archiváláshoz vagy a tartalom átalakításához.
előfeltételek
- Install the Az SDK.
- Adja meg az Aspose.Words NuGet csomagot:
dotnet add package Aspose.Words
- Készítse el a dokumentumot (
document.docx
A szöveg, a képek és a metadata.
Lépésről lépésre útmutató a tartalom kivonására a Word-fájlokból
1. Töltse le a Word dokumentumot
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
Elmagyarázás: Ez a kód feltölti a kijelölt Word-dokumentumot a memóriába a további feldolgozáshoz.
2. A szöveg kivonása a dokumentumból
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
Elmagyarázás: Ez a kód kivonja az összes szöveges tartalmat a feltöltött Word-dokumentumból, és nyomtatja a konzolra.
3. Metadata kivonása a dokumentumból
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
Elmagyarázás: Ez a kód kivonja és kinyomtatja a címet, a szerzőt és a létrehozási dátumot a Word dokumentumból.
4. Képek kivonása a dokumentumból
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
Elmagyarázás: Ez a kód kivonja az összes képet a Word-dokumentumból, és PNG fájlként tárolja őket a projekt directory-ban.
5. A megoldás tesztelése
- Ensure
document.docx
is in the project directory. - Végezze el a programot és ellenőrizze:- A konzol kimenetelében készült szöveg.
- Metadata részletek nyomtatott.
- Kivonult képek mentett a projektmappában.
Hogyan kell telepíteni és futtatni a főbb platformokon
Windows
- Telepítse a .NET futtatási időt, és telepítse az alkalmazást.
- Ellenőrizze az alkalmazást a parancsvonalon keresztül futtatva.
Linux
- Telepítse a .NET futtatási időt.
- Használja a terminális parancsokat az alkalmazás végrehajtásához vagy tárolásához egy szerveren.
macos
- Végezze el az alkalmazást a Kestrel használatával vagy telepítse felhőszolgáltatáson.
Közös problémák és megoldások
Nem készült képek:- Győződjön meg róla, hogy a dokumentum tartalmazza a beágyazott képeket, és nem külsőleg kapcsolódó.
a hiányzó adatokat tartalmazza:- Győződjön meg róla, hogy a dokumentum metadata tulajdonságokkal rendelkezik, mint például a cím vagy a szerző.
Hosszú fájl feldolgozása:- Használjon memória-hatékony megközelítést, például a dokumentum konkrét részeinek feldolgozását.
Ezzel az útmutatóval programozhat értékes tartalmat a Word dokumentumokból az Aspose.Words for .NET használatával.