Kā izņemt tekstu, attēlus un metadatus no Word dokumentiem .NET
Teksta, attēlu un metadatu izņemšana no Word dokumentiem ir nepieciešama dokumentu analīzei un apstrādei. Aspose.Words for .NET , izstrādātāji programmatiski var iegūt dokumentu saturu un īpašības dažādiem lietošanas gadījumiem, piemēram, indeksēšanu, arhivēšanu vai satura transformāciju.
Prerequisites
- Instalējiet Netaisnība SDK .
- Pievienojiet Aspose.Words NuGet paketi:
dotnet add package Aspose.Words
- Iepazīstiet vārda dokumentu (
document.docx
) ar tekstu, attēliem un metadatiem.
Pakāpeniski ceļvedis, kā izņemt saturu no Word failiem
1.Lasīt vārda dokumentu
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
** Izskaidrojums:** Šis kods norāda norādīto Word dokumentu atmiņā turpmākai apstrādei.
2. izrakstīt tekstu no dokumenta
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
** Izskaidrojums:** Šis kods izņem visu teksta saturu no uzlādētā Word dokumenta un drukā to uz konsoli.
Metadatu izņemšana no dokumenta
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
** Izskaidrojums:** Šis kods izraksta un drukā nosaukuma, autora un radīšanas datuma metadatu no Vārda dokumenta.
Izņemt attēlus no dokumenta
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
** Izskaidrojums:** Šis kods izņem visus attēlus no Word dokumenta un glabā tos kā PNG failus projekta direktorijā.
Izmēģiniet risinājumu
- Ensure
document.docx
Tas ir projekta direktorijā. - Izveidojiet programmu un pārbaudiet:- Izņemts teksts konsoles iznākumā.
- Metadatu detaļas ir drukātas.
- Izņemti attēli, kas saglabāti projektā.
Kā uzstādīt un darboties galvenajās platformās
Windows
- Instalējiet .NET darbības laiku un ievietojiet pieteikumu.
- Pārbaudiet pieteikumu, pārvietojot to ar komandas līniju.
Linux
- Uzstādīt .NET runtime.
- Izmantojiet termināla komandas, lai veiktu pieteikumu vai uzglabātu to serverī.
Maikls
- Izveidojiet pieteikumu, izmantojot Kestrel vai ievietojiet to mākoņa pakalpojumā.
Kopīgas problēmas un fiksācijas
attēli, kas nav izņemti:- Pārliecinieties, ka dokumentā ir iebūvēti attēli un tie, kas nav ārēji saistīti.
Metadatu trūkums:- Pārliecinieties, ka dokumentā ir metadatu īpašības, piemēram, nosaukums vai autors.
Liela faila apstrāde:- Izmantojiet atmiņas efektīvu pieeju, piemēram, apstrādājiet konkrētus dokumentu posmus.
Ar šo rokasgrāmatu jūs varat programmatiski iegūt vērtīgu saturu no Word dokumentiem, izmantojot Aspose.Words .NET.