Како извући текст, слике и метадане из Word докумената у .NET
Екстракција текста, слика и мета података из Word докумената је од суштинског значаја за анализу и обраду документа. Аспозе.Вордс за .НЕТ, програмери могу програмски добити садржај документа и својства за различите употребе случајева, као што су индексирање, архивирање или трансформација садржаја.
Принципи
- Install the .NET СДК.
- Додајте пакету Aspose.Words NuGet:
dotnet add package Aspose.Words
- Препоручује се припремање документа (
document.docx
) са текстом, сликама и метаданима.
Корак по корак водич за извлачење садржаја из Word датотека
1. преузмите документ за реч
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
Појашњење: Овај код преузима одређени Word документ у меморију за даље обраду.
2. извући текст из документа
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
Појашњење: Овај код извлачи све текстуалне садржаје из преузетог Word документа и штампа га на конзолу.
Извлачите метадане из документа
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
Појашњење: Овај код извлачи и штампа наслов, аутор и датум креирања метадане из Ворд документа.
Извлачите слике из документа
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
Појашњење: Овај код извлачи све слике из Ворд документа и чува их као ПНГ датотеке у директоријуму пројекта.
5. испитивање решења
- Ensure
document.docx
is in the project directory. - Проверите програм и проверите:- Изведени текст у излазу конзоле.
- Детаљи метадата су штампани.
- Истражене слике сачуване у фасциклу пројекта.
Како депонирати и радити на великим платформама
Виндовс
- Инсталирајте .NET радно време и покрените апликацију.
- Тестирајте апликацију покретањем преко командне линије.
Линукс
- Инсталирајте .NET Runtime.
- Користите терминалне команде да бисте извршили апликацију или га хостирали на серверу.
МАКОС
- Изводите апликацију користећи Кестрел или га расположите на облачној служби.
Уобичајени проблеми и фиксирања
Слике које нису уклоњене:- Уверите се да документ садржи уграђене слике, а не споља повезане.
Недостатак метада:- Уверите се да документ има метадане својства као што су наслов или аутор сет.
Прерађивање великих датотека:- Користите меморијски ефикасан приступ, као што је обрада одређених одељака документа.
Са овим водичем можете програматски извући драгоцени садржај из Word докумената користећи Aspose.Words за .NET.