Text Extractor Plugin untuk Aspose.PDF

Aspose.PDF Text Extractor Plugin untuk .NET memungkinkan pengembang untuk mengekstrak konten teks - terstruktur, rata, atau as-is - dari PDF Dengan tiga mode ekstraksi, ini ideal untuk konversi dokumen, perlombongan data, peningkatan aksesibilitas, dan banyak lagi.

Artikel Terakhir

Cara Mengekstrak Teks dari PDF dalam .NET Cara Mengekstrak Data dan Jadual Berstruktur dari PDF dalam .NET

Aspose.PDF Text Extractor Plugin Fitur Kunci

Multiple Extraction Mode dan Modus EkstraksiMengekstrak teks sebagai murni (format), mentah (as-is), atau rata (dibersihkan) untuk fleksibilitas maksimum.
Batch PDF PemrosesanTambahkan beberapa PDF untuk ekstraksi serentak dan aliran kerja yang lancar.
Integrasi .NET yang mudahStraightforward API – Tambahkan ke setiap proyek C# atau .NET untuk pengembangan cepat.

Mulai dengan Aspose.PDF Text Extractor Plugin

Memasang Aspose.PDF untuk .NETTambah melalui NuGet atau download assemblies ke solusi .NET Anda.
Dapatkan lisensi AndaMengaktifkan untuk pemrosesan dan dukungan tak terbatas.
Mengkonfigurasi Opsi EkstraksiPenggunaan TextExtractor dan TextExtractorOptions Menetapkan mode ekstraksi seperti yang diinginkan (Pure, Raw, Plain).
Proses dan Retrieve TextLakukan ekstraksi dan akses hasil melalui hasil koleksi kontena.

Contoh: Mengekstrak teks dari PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Contoh: Batch Extract Text dari Multiple PDFs

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Penggunaan Kasus & Ekstensi

PDF ke TXT Conversion: Konversi otomatis PDF ke teks rata untuk pengindeksan, pencarian, atau arkib.
Data Mining: Mengekstrak data tabel, invois, atau formulir untuk pemrosesan lebih lanjut atau analisis.
Accessibility: Persiapan konten yang dapat dibaca untuk pembaca layar atau format alternatif.
Batch Processing: Gunakan mode ekstraksi untuk aliran kerja downstream tertentu (misalnya, pre-processing OCR, identitas entitas).

Untuk ekstraksi lanjutan – seperti pengendalian PDF terenkripsi, atau penyesuaian output teks – rujuk ke Referensi API resmi.

Praktik terbaik

Selalu pilih mode ekstraksi yang sesuai dengan kebutuhan output Anda (format, mentah, atau bersih).
Untuk set dokumen yang besar, proses batch untuk memaksimalkan output dan meminimalisir usaha manual.
Hasil ekstraksi tes dengan PDF dunia nyata untuk memastikan ketepatan data.

Sumber yang terkait: