Aspose için Metin Ekstraktör Plugin.PDF
Aspose.PDF Text Extractor Plugin for .NET geliştiricilerin metin içeriğini - yapılandırılmış, düz veya as-is - PDF dosyalarından çıkarmalarını sağlar. üç ekstraksiyon moduyla, belge dönüşümü, veri madenciliği, erişilebilirlik geliştirmeleri ve daha fazlası için idealdir.
Son Yazılar
Aspose.PDF Metin Ekstraktörü Plugin Anahtar Özellikleri
Çeşitli Ekstraksiyon Modları Maksimum esneklik için saf (formatta), ham (as-is) veya düz (temiz) olarak metni çıkarın.
Batch PDF İşlemeÇeşitli PDF’leri eşzamanlı çıkarma ve akıcı çalışma akışları için ekleyin.
Basit .NET entegrasyonu Straightforward API – Hızlı dağıtım için herhangi bir C# veya .NET projesine ekleyin.
Aspose.PDF Metin Ekstraktör Plugin ile Başlamak
.NET için Aspose.PDF yüklemeNuGet aracılığıyla eklemek veya .NET çözümünü indirmek.
Lisansınızı ayarlayınSınırsız işleme ve destek için etkinleştirin.
Konfigurasyon Ekstraksiyon SeçenekleriKullanımı
TextExtractor
veTextExtractorOptions
İstediğiniz gibi ekstraksiyon modunu ayarlayın (Pure, Raw, Plain).İşlem ve Retrieve MetinSonuç konteyner koleksiyonu aracılığıyla çıkarma ve erişim sonuçları çalıştırın.
Örnek: Bir PDF’den metin çıkarın (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Örnek: Çeşitli PDF’lerden Batch Ekstrakt Metin
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Kullanım Cases & Extensions
- PDF to TXT Dönüşüm: PDF’lerin indeksleme, arama veya arşivleme için düz metin olarak otomatik dönüşümü.
- Data Mining: Daha fazla işleme veya analiz için tablo verileri, faturaları veya formları çıkarın.
- Gelebilirlik: Ekran okuyucu veya alternatif biçimler için okunabilir içeriği hazırlayın.
- Batch İşleme: Belirli düşük akımlı çalışma akışları için ekstraksiyon modlarını kullanın (örneğin, OCR ön işleme, entite tanıma).
Gelişmiş ekstraksiyonlar için - şifreli PDF’lerin işlenmesi veya metin çıkışını özelleştirmek gibi - resmi API Referansına başvurun.
En İyi Uygulamalar
- Her zaman çıkış gereksinimlerinizi karşılayan çıkarma modunu seçin (formasyon, ham veya temiz).
- Büyük belge setleri için, geçiş sürecini en üst düzeye çıkarmak ve manuel çabayı en aza indirmek.
- Veri doğruluğunu sağlamak için gerçek dünya PDF’leri ile test çıkarma sonuçları.
İlgili kaynaklar