Text Extractor Plugin สําหรับ Aspose.PDF

Aspose.PDF Text Extractor Plugin for .NET ช่วยให้ผู้พัฒนาสามารถ استخراجเนื้อหาข้อความ - โครงสร้างเรียบหรือเป็น - จาก คู่มือ PDF ด้วยสามโหมดการสกัดมันเหมาะสําหรับการแปลงเอกสารการทําเหมืองข้อมูลการปรับปรุงการเข้าถึงและอื่น ๆ.

บทความล่าสุด

วิธีการสกัดข้อความจาก PDF ใน .NET วิธีการสกัดข้อมูลและตารางโครงสร้างจาก PDF ใน .NET

Aspose.PDF Text Extractor Plugin คุณสมบัติหลัก

โหมดการกัดกร่อนหลายแบบสารสกัดเป็นบริสุทธิ์ (รูปแบบ), วัตถุดิบ (เป็น) หรือเรียบ (ทําความสะอาด) เพื่อความยืดหยุ่นสูงสุด.
Batch การประมวลผล PDFเพิ่มไฟล์ PDF มากมายเพื่อการสกัดในเวลาเดียวกันและกระแสทํางานที่เรียบง่าย.
การบูรณาการ .NET ง่ายAPI Straightforward – เพิ่มไปยังโครงการ C# หรือ .NET สําหรับการใช้งานอย่างรวดเร็ว.

เริ่มต้นด้วย Aspose.PDF Text Extractor Plugin

ติดตั้ง Aspose.PDF สําหรับ .NETเพิ่มผ่าน NuGet หรือดาวน์โหลดชุดไปยังโซลูชัน .NET ของคุณ.
กําหนดค่าใบอนุญาตของคุณเปิดใช้งานสําหรับการประมวลผลและการสนับสนุนไม่ จํากัด.
การกําหนดค่าตัวเลือกการสกัดใช TextExtractor และ TextExtractorOptions ประเภท การตั้งค่าโหมดการสกัดตามความต้องการ (บริสุทธิ์ Raw, Plain).
กระบวนการและ Retrieve Textดําเนินการผลลัพธ์การสกัดและการเข้าถึงผ่านการเก็บรวบรวมภาชนะผล.

ตัวอย่าง: สารสกัดข้อความจาก PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

ตัวอย่าง: สารสกัดข้อความจากไฟล์ PDF จํานวนมาก

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

ใช้ Cases & Extensions

PDF ไปยัง TXT แปลง: การแปลงอัตโนมัติของไฟล์ PDF เพื่อข้อความที่เรียบเพื่อการ indexing, search, หรือ archival.
**การทําเหมืองแร่ข้อมูล:**สกัดข้อมูลตารางบัญชีหรือแบบฟอร์มสําหรับการประมวลผลเพิ่มเติมหรือวิเคราะห.
**การเข้าถึง:**เตรียมเนื้อหาที่สามารถอ่านได้สําหรับผู้อ่านหน้าจอหรือรูปแบบอื่น ๆ.
**การประมวลผลแบทช์:**ใช้โหมดการสกัดสําหรับกระแสทํางานต่ําที่เฉพาะเจาะจง (เช่น OCR Pre-Processing, Entity Recognition).

สําหรับการสกัดขั้นสูง - เช่นการจัดการไฟล์ PDF ที่เข้ารหัสหรือการกําหนดค่าการส่งข้อความ - คําอธิบายไปยัง API ภาษาไทย.

การปฏิบัติที่ดีที่สุด

เลือกโหมดการสกัดที่ตอบสนองความต้องการการผลิตของคุณ (การจัดรูปแบบวัตถุดิบหรือสะอาด).
สําหรับชุดเอกสารขนาดใหญ่กระบวนการแพทช์เพื่อเพิ่มประสิทธิภาพการผ่านและลดความพยายามด้วยตนเอง.
ผลการสกัดการทดสอบด้วย PDF ในโลกจริงเพื่อให้แน่ใจว่าข้อมูลถูกต้อง.

ทรัพยากรที่เกี่ยวข้อง: