Plugin Pengekstrak teks untuk Aspose.PDF
Aspose.PDF Text Extractor Plugin untuk .NET membolehkan pemaju untuk mengekstrak kandungan teks—berstruktur, rata, atau as-is—dari fail PDF. Dengan tiga mod ekstraksi, ia sesuai untuk penukaran dokumen, perlombongan data, peningkatan aksesibiliti, dan banyak lagi.
Artikel terkini
Aspose.PDF Text Extractor Plugin Ciri-ciri Kunci
- Pelbagai kaedah pengeluaran*Mengekstrak teks sebagai murni (format), mentah (as-is), atau rata (dibersihkan) untuk fleksibiliti maksimum.
Batch PDF pemprosesanTambah beberapa PDF untuk pengekstrakan serentak dan aliran kerja yang lancar.
- Integrasi .NET yang mudah*Straightforward API – menambah kepada mana-mana projek C# atau .NET untuk pelaksanaan yang cepat.
Mula dengan Aspose.PDF Text Extractor Plugin
Memasang Aspose.PDF untuk .NETTambah melalui NuGet atau muat turun perhimpunan kepada penyelesaian .NET anda.
Mengesetkan lesen andaMengaktifkan untuk pemprosesan dan sokongan tanpa had.
Mengkonfigurasi Pilihan EkstraksiUse
TextExtractor
danTextExtractorOptions
Tetapkan mod ekstraksi seperti yang dikehendaki (Pure, Raw, Plain).Proses dan Retrieve TextMelaksanakan pengekstrakan dan akses hasil melalui koleksi bekas hasil.
** Contoh: Mengekstrak teks daripada PDF (C#)**
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
** Contoh: Batch Mengekstrak teks daripada pelbagai PDF**
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Penggunaan Kasus & Perpanjangan
- PDF ke TXT Conversion: Konversi automatik PDF ke teks rata untuk pengindeksan, carian, atau arkib.
- ** Data Mining:** Mengekstrak data jadual, invois, atau borang untuk pemprosesan lanjut atau analisis.
- ** Aksesibiliti:** Sediakan kandungan yang boleh dibaca untuk pembaca skrin atau format alternatif.
- ** Pemprosesan batch:** Gunakan mod ekstraksi untuk aliran kerja downstream tertentu (contohnya, pra-proses OCR, pengenalan entiti).
Untuk pengekstrakan lanjutan - seperti mengendalikan PDF yang disulitkan, atau menyesuaikan output teks - rujuk kepada rujukan API rasmi.
Tag: kebiasaan terbaik *
- Selalu pilih mod pengekstrakan yang memenuhi keperluan output anda (format, mentah, atau bersih).
- Untuk set dokumen yang besar, proses batch untuk memaksimumkan output dan meminimumkan usaha manual.
- Hasil pengekstrakan ujian dengan PDF dunia sebenar untuk memastikan ketepatan data.
Sumber yang berkaitan :