Plugin Pengekstrak teks untuk Aspose.PDF

Aspose.PDF Text Extractor Plugin untuk .NET membolehkan pemaju untuk mengekstrak kandungan teks—berstruktur, rata, atau as-is—dari fail PDF. Dengan tiga mod ekstraksi, ia sesuai untuk penukaran dokumen, perlombongan data, peningkatan aksesibiliti, dan banyak lagi.

Artikel terkini

Aspose.PDF Text Extractor Plugin Ciri-ciri Kunci

    • Pelbagai kaedah pengeluaran*Mengekstrak teks sebagai murni (format), mentah (as-is), atau rata (dibersihkan) untuk fleksibiliti maksimum.
  • Batch PDF pemprosesanTambah beberapa PDF untuk pengekstrakan serentak dan aliran kerja yang lancar.

    • Integrasi .NET yang mudah*Straightforward API – menambah kepada mana-mana projek C# atau .NET untuk pelaksanaan yang cepat.

Mula dengan Aspose.PDF Text Extractor Plugin

  • Memasang Aspose.PDF untuk .NETTambah melalui NuGet atau muat turun perhimpunan kepada penyelesaian .NET anda.

  • Mengesetkan lesen andaMengaktifkan untuk pemprosesan dan sokongan tanpa had.

  • Mengkonfigurasi Pilihan EkstraksiUse TextExtractor dan TextExtractorOptions Tetapkan mod ekstraksi seperti yang dikehendaki (Pure, Raw, Plain).

  • Proses dan Retrieve TextMelaksanakan pengekstrakan dan akses hasil melalui koleksi bekas hasil.

** Contoh: Mengekstrak teks daripada PDF (C#)**

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

** Contoh: Batch Mengekstrak teks daripada pelbagai PDF**

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Penggunaan Kasus & Perpanjangan

  • PDF ke TXT Conversion: Konversi automatik PDF ke teks rata untuk pengindeksan, carian, atau arkib.
  • ** Data Mining:** Mengekstrak data jadual, invois, atau borang untuk pemprosesan lanjut atau analisis.
  • ** Aksesibiliti:** Sediakan kandungan yang boleh dibaca untuk pembaca skrin atau format alternatif.
  • ** Pemprosesan batch:** Gunakan mod ekstraksi untuk aliran kerja downstream tertentu (contohnya, pra-proses OCR, pengenalan entiti).

Untuk pengekstrakan lanjutan - seperti mengendalikan PDF yang disulitkan, atau menyesuaikan output teks - rujuk kepada rujukan API rasmi.

Tag: kebiasaan terbaik *

  • Selalu pilih mod pengekstrakan yang memenuhi keperluan output anda (format, mentah, atau bersih).
  • Untuk set dokumen yang besar, proses batch untuk memaksimumkan output dan meminimumkan usaha manual.
  • Hasil pengekstrakan ujian dengan PDF dunia sebenar untuk memastikan ketepatan data.

Sumber yang berkaitan :

 Melayu