Text Extractor Plugin untuk Aspose.PDF
Aspose.PDF Text Extractor Plugin untuk .NET memungkinkan pengembang untuk mengekstrak konten teks - terstruktur, rata, atau as-is - dari file PDF. Dengan tiga mode ekstraksi, itu ideal untuk konversi dokumen, perlombongan data, peningkatan aksesibilitas, dan banyak lagi.
Artikel Terakhir
Aspose.PDF Text Extractor Plugin Fitur Kunci
Multiple Extraction Mode dan Modus EkstraksiMengekstrak teks sebagai murni (format), mentah (as-is), atau rata (dibersihkan) untuk fleksibilitas maksimum.
Batch PDF PemrosesanTambahkan beberapa PDF untuk ekstraksi serentak dan aliran kerja yang lancar.
Integrasi .NET yang mudahStraightforward API – Tambahkan ke setiap proyek C# atau .NET untuk pengembangan cepat.
Mulai dengan Aspose.PDF Text Extractor Plugin
Memasang Aspose.PDF untuk .NETTambah melalui NuGet atau download assemblies ke solusi .NET Anda.
Dapatkan lisensi AndaMengaktifkan untuk pemrosesan dan dukungan tak terbatas.
Mengkonfigurasi Opsi EkstraksiPenggunaan
TextExtractor
danTextExtractorOptions
Menetapkan mode ekstraksi seperti yang diinginkan (Pure, Raw, Plain).Proses dan Retrieve TextLakukan ekstraksi dan akses hasil melalui hasil koleksi kontena.
Contoh: Mengekstrak teks dari PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Contoh: Batch Extract Text dari Multiple PDFs
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Penggunaan Kasus & Ekstensi
- PDF ke TXT Conversion: Konversi otomatis PDF ke teks rata untuk pengindeksan, pencarian, atau arkib.
- Data Mining: Mengekstrak data tabel, invois, atau formulir untuk pemrosesan lebih lanjut atau analisis.
- Accessibility: Persiapan konten yang dapat dibaca untuk pembaca layar atau format alternatif.
- Batch Processing: Gunakan mode ekstraksi untuk aliran kerja downstream tertentu (misalnya, pre-processing OCR, identitas entitas).
Untuk ekstraksi lanjutan – seperti pengendalian PDF terenkripsi, atau penyesuaian output teks – rujuk ke Referensi API resmi.
Praktik terbaik
- Selalu pilih mode ekstraksi yang sesuai dengan kebutuhan output Anda (format, mentah, atau bersih).
- Untuk set dokumen yang besar, proses batch untuk memaksimalkan output dan meminimalisir usaha manual.
- Hasil ekstraksi tes dengan PDF dunia nyata untuk memastikan ketepatan data.
Sumber yang terkait :