Ako extrahovať text, obrázky a metadata z Word dokumentov v .NET
Odstránenie textu, obrázkov a metadata z dokumentov programu Word je nevyhnutné pre analýzu a spracovanie dokumentu. Aspose.Words pre .NET, vývojári môžu programaticky získať obsah dokumentu a vlastnosti pre rôzne prípady použitia, ako je indexovanie, archívovanie alebo transformácia obsahu.
Predpoklady
- Install the • NET SDK.
- Pridajte balík Aspose.Words NuGet:
dotnet add package Aspose.Words
- Príprava písomného dokumentu (
document.docx
) s textom, obrázkami a metadata.
Krok za krokom sprievodca extrahovať obsah z Word súborov
1. nahrať slovný dokument
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
Vysvetlenie: Tento kód nahráva špecifikovaný Word dokument do pamäte pre ďalšie spracovanie.
2. vytiahnuť text z dokumentu
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
Vysvetlenie: Tento kód extrahuje celý textový obsah z nahraného dokumentu Word a vytlačí ho na konzolu.
Vyrábať metadata z dokumentu
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
Vysvetlenie: Tento kód vytiahne a vytlačí názov, autor a dátum vytvorenia metaúdaje z dokumentu Word.
4. vytiahnuť obrázky z dokumentu
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
Vysvetlenie: Tento kód extrahuje všetky obrázky z dokumentu Word a ukladá ich ako súbory PNG v projektovom katalógu.
5. vyskúšať riešenie
- Ensure
document.docx
is in the project directory. - Spustiť program a overiť:- Vytiahnutý text v produkcii konzoly.
- Metodické detaily sú vytlačené.
- Odstránené obrázky uložené v priečinku projektu.
Ako rozmiestniť a spustiť na hlavných platformách
Windows
- Nainštalujte čas prevádzky .NET a implementujte aplikáciu.
- Vyskúšajte aplikáciu tým, že ju spustíte cez príkazovú čiaru.
Linux
- Inštalácia .NET runtime.
- Použite terminálne príkazy na spustenie aplikácie alebo ho hostíte na serveri.
macOS
- Spustite aplikáciu pomocou aplikácie Kestrel alebo ju umiestnite na cloudovú službu.
Spoločné problémy a riešenia
Obrázky nie sú vytiahnuté:- Uistite sa, že dokument obsahuje vstavané obrázky a nie externe prepojené.
Metadata chýbajúce:- Uistite sa, že dokument má metadatové vlastnosti, ako je nastavenie názvu alebo autorov.
Vysoká úroveň spracovania súborov:- Použite pamäťový efektívny prístup, napríklad spracovanie konkrétnych sekcií dokumentu.
Pomocou tohto sprievodcu môžete programaticky extrahovať cenný obsah z dokumentov programu Word pomocou aplikácie Aspose.Words pre .NET.