Jak extrahovat text, obrázky a metadata z dokumentů Word v .NET
Extrakce textu, obrázků a metadat z dokumentů Word je nezbytná pro analýzu a zpracování dokumentů. S Aspose.Words pro .NET mohou vývojáři programově získávat obsah a vlastnosti dokumentu pro různé případy použití, jako je indexování, archivace nebo transformace obsahu.
Požadavky
- Nainstalujte .NET SDK.
- Přidejte NuGet balíček Aspose.Words:
dotnet add package Aspose.Words
- Připravte dokument Word (
document.docx
) s textem, obrázky a metadaty.
Krok za krokem průvodce extrakcí obsahu z Word souborů
1. Načtěte dokument Word
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Krok 1: Načtěte dokument Word
string filePath = "document.docx";
Document doc = new Document(filePath);
// Kroky 2, 3 a 4 budou přidány níže
}
}
Vysvětlení: Tento kód načte zadaný dokument Word do paměti pro další zpracování.
2. Extrakce textu z dokumentu
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Krok 2: Extrakce textu
string text = doc.GetText();
Console.WriteLine("Extrahovaný text: " + text);
// Kroky 3 a 4 budou přidány níže
}
}
Vysvětlení: Tento kód extrahuje veškerý textový obsah z načteného dokumentu Word a vytiskne jej do konzole.
3. Extrakce metadat z dokumentu
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extrahovaný text: " + text);
// Krok 3: Extrakce metadat
Console.WriteLine("Název: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Autor: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Datum vytvoření: " + doc.BuiltInDocumentProperties.CreatedTime);
// Krok 4 bude přidán níže
}
}
Vysvětlení: Tento kód extrahuje a tiskne metadata o názvu, autorovi a datu vytvoření z dokumentu Word.
4. Extrakce obrázků z dokumentu
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extrahovaný text: " + text);
Console.WriteLine("Název: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Autor: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Datum vytvoření: " + doc.BuiltInDocumentProperties.CreatedTime);
// Krok 4: Extrakce obrázků
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Obrázek_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Uložený obrázek: {imageFilePath}");
}
}
Console.WriteLine("Extrakce obsahu byla dokončena.");
}
}
Vysvětlení: Tento kód extrahuje všechny obrázky z dokumentu Word a ukládá je jako PNG soubory v adresáři projektu.
5. Otestujte řešení
- Ujistěte se, že
document.docx
je v adresáři projektu. - Spusťte program a ověřte:
- Extrahovaný text v konzolovém výstupu.
- Vytisknuté detaily metadat.
- Uložené extrahované obrázky v adresáři projektu.
Jak nasadit a spustit na hlavních platformách
Windows
- Nainstalujte .NET runtime a nasadíte aplikaci.
- Otestujte aplikaci spuštěním přes příkazový řádek.
Linux
- Nainstalujte .NET runtime.
- Použijte terminálové příkazy k provedení aplikace nebo ji hostujte na serveru.
macOS
- Spusťte aplikaci pomocí Kestrel nebo ji nasadíte na cloudovou službu.
Běžné problémy a opravy
- Obrázky nebyly extrahovány:
- Ujistěte se, že dokument obsahuje vložené obrázky a ne externě propojené.
- Chybějící metadata:
- Ověřte, že dokument má nastavené vlastnosti metadat jako Název nebo Autor.
- Zpracování velkých souborů:
- Použijte přístup šetrný k paměti, například zpracování konkrétních sekcí dokumentu.
S tímto průvodcem můžete programově extrahovat cenný obsah z dokumentů Word pomocí Aspose.Words pro .NET.