Jak extrahovat text, obrázky a metadata z Word dokumentů v .NET
Odstranění textu, obrázků a metadata z dokumentů Word je nezbytné pro analýzu a zpracování dokumentů. Aspose.Words pro .NET, vývojáři mohou programově získat obsah dokumentů a vlastnosti pro různé případy použití, jako je indexování, archivace nebo transformace obsahu.
Předpoklady
- Instalace The .NET SDK .
- Přidejte do balíčku Aspose.Words NuGet:
dotnet add package Aspose.Words
- Připravte si dokument (
document.docx
) s textem, obrázky a metadata.
Krok za krokem průvodce k extrahování obsahu z Word souborů
1. nahrávejte slovní dokument
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
Objasnění: Tento kód nahrává specifikovaný Word dokument do paměti pro další zpracován.
2) Využijte text z dokumentu
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
Objasnění: Tento kód extrahuje veškerý textový obsah z načteného dokumentu Word a vytiskne ho na konzoli.
Vytažení metadata z dokumentu
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
Objasnění: Tento kód extrahuje a vytiskne metadata názvu, autora a data vytvoření z dokumentu Word.
4.Vytáhnout obrázky z dokumentu
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
Objasnění: Tento kód extrahuje všechny obrázky z dokumentu Word a ukládá je jako PNG soubory v projektovém adresáři.
5. vyzkoušet řešení
- Zajištění
document.docx
Je v projektovém katalogu. - Proveďte program a ověřte:- Využití textu v konzole.
- Podrobnosti metadata jsou vytisknuty.
- Získané snímky jsou uloženy v souboru projektu.
Jak rozložit a spustit na velkých platformách
Windows
- Instalace .NET Runtime a implementace aplikace.
- Vyzkoušejte aplikaci tím, že ji spustíte prostřednictvím příkazové linky.
Linux
- Instalace .NET Runtime.
- Použijte terminální příkazy k provedení aplikace nebo jej hostit na serveru.
MacOS
- Spusťte aplikaci pomocí aplikace Kestrel nebo jej umístěte na cloudové služb.
Společné problémy a fixy
Obrázky, které nebyly vyřazeny:- Ujistěte se, že dokument obsahuje vestavěné obrázky a ne externě propojen.
chybějící metadata:- Ujistěte se, že dokument má metadata vlastnosti, jako je nastavení Titul nebo Autor.
Zpracování velkých soubor:- Použijte paměťově efektivní přístup, například zpracování konkrétních částí dokumentu.
S tímto průvodcem můžete programově extrahovat cenný obsah z dokumentů Word pomocí aplikace Aspose.Words pro .NET.