Text Extractor Plugin untuk Aspose.PDF

Aspose.PDF Text Extractor Plugin untuk .NET memungkinkan pengembang untuk mengekstrak konten teks - terstruktur, rata, atau as-is - dari file PDF. Dengan tiga mode ekstraksi, itu ideal untuk konversi dokumen, perlombongan data, peningkatan aksesibilitas, dan banyak lagi.

Artikel Terakhir

Aspose.PDF Text Extractor Plugin Fitur Kunci

  • *Multiple Extraction Mode dan Modus EkstraksiMengekstrak teks sebagai murni (format), mentah (as-is), atau rata (dibersihkan) untuk fleksibilitas maksimum.

  • Batch PDF PemrosesanTambahkan beberapa PDF untuk ekstraksi serentak dan aliran kerja yang lancar.

    • Integrasi .NET yang mudah*Straightforward API – Tambahkan ke setiap proyek C# atau .NET untuk pengembangan cepat.

Mulai dengan Aspose.PDF Text Extractor Plugin

  • Memasang Aspose.PDF untuk .NETTambah melalui NuGet atau download assemblies ke solusi .NET Anda.

    • Dapatkan lisensi Anda*Mengaktifkan untuk pemrosesan dan dukungan tak terbatas.
    • Mengkonfigurasi Opsi Ekstraksi*Penggunaan TextExtractor dan TextExtractorOptions Menetapkan mode ekstraksi seperti yang diinginkan (Pure, Raw, Plain).
    • Proses dan Retrieve Text*Lakukan ekstraksi dan akses hasil melalui hasil koleksi kontena.

** Contoh: Mengekstrak teks dari PDF (C#)**

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

** Contoh: Batch Extract Text dari Multiple PDFs**

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Penggunaan Kasus & Ekstensi

  • PDF ke TXT Conversion: Konversi otomatis PDF ke teks rata untuk pengindeksan, pencarian, atau arkib.
  • ** Data Mining:** Mengekstrak data tabel, invois, atau formulir untuk pemrosesan lebih lanjut atau analisis.
  • Accessibility: Persiapan konten yang dapat dibaca untuk pembaca layar atau format alternatif.
  • Batch Processing: Gunakan mode ekstraksi untuk aliran kerja downstream tertentu (misalnya, pre-processing OCR, identitas entitas).

Untuk ekstraksi lanjutan – seperti pengendalian PDF terenkripsi, atau penyesuaian output teks – rujuk ke Referensi API resmi.

* Praktik terbaik *

  • Selalu pilih mode ekstraksi yang sesuai dengan kebutuhan output Anda (format, mentah, atau bersih).
  • Untuk set dokumen yang besar, proses batch untuk memaksimalkan output dan meminimalisir usaha manual.
  • Hasil ekstraksi tes dengan PDF dunia nyata untuk memastikan ketepatan data.

Sumber yang terkait :

 Indonesia