.NET'te Word belgelerinden metadata ve metadata nasıl çıkarılır
Word belgelerinden metin, görüntü ve metadata çıkarmak belge analizi ve işleme için gereklidir. Aspose.Words for .NET ile geliştiriciler çeşitli kullanım durumları için belge içeriğini ve özelliklerini, örneğin indeksleme, arşivleme veya içerik dönüştürme gibi programlı olarak elde edebilir.
Ön koşullar
- Yükleme The .NET SDK için .
- Aspose.Words NuGet paketini ekleyin:
dotnet add package Aspose.Words
- Bir yazı yazmak için (
document.docx
) metin, resimler ve metadata ile.
Word dosyalarından içeriği çıkarmak için adım adım rehber
1. Sözcüğün belgesini yükleme
using System;
using Aspose.Words;
class Program
{
static void Main()
{
// Step 1: Load the Word document
string filePath = "document.docx";
Document doc = new Document(filePath);
// Steps 2, 3, and 4 will be added below
}
}
Açıklama: Bu kod daha fazla işleme için belirtilen Word belgesini hafıza içine yükler.
2. Dosyadan metin çıkarmak
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
// Step 2: Extract Text
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Steps 3 and 4 will be added below
}
}
Açıklama: Bu kod yüklü Word belgesinden tüm metin içeriğini çıkarır ve konsoluna yazdırır.
3. Metadata belgesinden çıkarın
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
// Step 3: Extract Metadata
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4 will be added below
}
}
Açıklama: Bu kod, Word belgesinden başlık, yazar ve oluşturma tarihi metadata çıkarır ve yazar.
4. Dosyadan Görüntüler Çekmek
using System;
using Aspose.Words;
class Program
{
static void Main()
{
string filePath = "document.docx";
Document doc = new Document(filePath);
string text = doc.GetText();
Console.WriteLine("Extracted Text: " + text);
Console.WriteLine("Title: " + doc.BuiltInDocumentProperties.Title);
Console.WriteLine("Author: " + doc.BuiltInDocumentProperties.Author);
Console.WriteLine("Created Date: " + doc.BuiltInDocumentProperties.CreatedTime);
// Step 4: Extract Images
int imageCount = 0;
foreach (var shape in doc.GetChildNodes(NodeType.Shape, true))
{
if (shape is Shape { HasImage: true } imageShape)
{
string imageFilePath = $"Image_{++imageCount}.png";
imageShape.ImageData.Save(imageFilePath);
Console.WriteLine($"Saved Image: {imageFilePath}");
}
}
Console.WriteLine("Content extraction completed.");
}
}
Açıklama: Bu kod, Word belgesinden tüm görüntüleri çıkarır ve bunları proje dizininde PNG dosyaları olarak kaydeder.
5. Çözümlerin test edilmesi
- Güvenlik
document.docx
Proje dizininde yer almaktadır. - Programı çalıştırın ve kontrol edin:- Konsol çıkışında alınan metin.
- Metadata ayrıntıları yazdırılır.
- Çekilen resimler proje klasöründe kaydedildi.
Büyük platformlarda nasıl dağıtılır ve çalıştırılır
Windows için
- .NET çalıştırma süresini kurun ve uygulama çalıştırın.
- Uygulamayı komut hattı üzerinden çalıştırarak test edin.
Linux için
- .NET çalışma süresini kurun.
- Uygulamayı yürütmek veya bir sunucuda barındırmak için terminal komutları kullanın.
macos için
- Uygulamayı Kestrel kullanarak çalıştırın veya bir bulut hizmetine yerleştirin.
Toplam Sorunlar ve Çözümler
Görüntülenmemiş görüntüler:- Belgenin yerleşik görüntüleri ve dışarıdan bağlantılı olmayan görüntüleri içerdiğinden emin olun.
Metadata eksikliği:- Belgenin metadata özellikleri, örneğin Başlık veya Yazar setine sahip olduğundan emin olun.
Uzun Dosya İşleme:- Hafıza verimli bir yaklaşım kullanın, örneğin belgenin belirli bölümlerini işleyin.
Bu kılavuzla, .NET için Aspose.Words kullanarak Word belgelerinden değerli içeriği programlı olarak çıkarabilirsiniz.