วิธีการสกัดข้อมูลโครงสร้างจาก PDF โดยใช้ ChatGPT และ .NET
ปล็อคอัตโนมัติขั้นสูงและอัจฉริยะกระแสการทํางานในแอพ .NET ของคุณโดยการสกัดข้อมูลโครงสร้าง (เช่นตารางแบบฟอร์มหรือหน่วย) จากไฟล์ PDF และแปลงเป็นรูปแบบที่สามารถอ่านได้ด้วยเครื่อง คู่มือรายละเอียดนี้ผ่านขั้นตอนทั้งหมด - จากการ استخراجข้อความไปยังข้อมูลที่สมาร์ทผ่านทาง ChatGPT
การแนะนํา
การสกัดข้อมูลโครงสร้างจากเอกสาร PDF เป็นข้อกําหนดที่สําคัญสําหรับวิสัยทัศน์ธุรกิจการรายงานและการอัตโนมัติ ในขณะที่ Aspose.PDF.Plugin ช่วยให้การสกปรกข้อความที่แข็งแกร่งใน .NET การเชื่อมต่อกับ ChatGPT ช่วยให้คุณสามารถแบ่งประเภทและรูปแบบข้อมูลเป็น JSON, CSV หรือวัตถุโดเมน
กรณีที่ใช้ทั่วไป:
- การสกัดข้อมูลบัญชีสําหรับการอัตโนมัติการบัญชี
- แผ่นพาร์ติ้งจากเอกสารวิจัย
- การแปลงรูปแบบสแกนเป็นบันทึกโครงสร้าง
ขั้นตอน 1: สารสกัดข้อความหรือเนื้อหาตารางจาก PDF
เริ่มต้นโดยใช้ TextExtractor
หรือสําหรับข้อมูลตารางตัวเลือกเฉพาะใน Aspose.PDF.Plugin
using Aspose.Pdf.Plugins;
var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();
ขั้นตอนที่ 2: การเตรียมและส่งข้อมูลไปยัง ChatGPT
คุณสามารถคําสั่ง ChatGPT เพื่อแบ่งและส่งข้อมูลในรูปแบบที่โครงสร้างเช่น JSON หรือ CSV
string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples
เคล็ดลับสําหรับผลลัพธ์ที่ดีขึ้น:
ใช้ข้อเสนอแนะที่ชัดเจนและอ้างอิง: “ดึงตารางของคําอธิบายรายการราคาและรวมเป็น JSON”
สําหรับไฟล์ PDF ขนาดใหญ่สกัดและส่งข้อความในส่วน logic (เช่นตารางหนึ่งในเวลา)
ขั้นตอน 3: Parse และ Validate AI Output
หลังจากรับการตอบสนองของ ChatGPT, parse the structured data using a JSON (หรือ CSV) parser:
// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);
public class InvoiceItem
{
public string Description { get; set; }
public decimal Price { get; set; }
public int Quantity { get; set; }
public decimal Total { get; set; }
}
ขั้นตอนการยืนยัน:
- ตรวจสอบประเภทข้อมูลที่ถูกต้อง (หมายเลขวันที่ ฯลฯ )
- บันทึกหรือจดหมายข้อมูลที่ไม่สมบูรณ์ / สังวลสําหรับการตรวจสอบ
ขั้นตอน 4: การบันทึกหรือใช้ข้อมูลที่สกัด
- เก็บผลลัพธ์ที่โครงสร้างขึ้นในฐานข้อมูลไฟล์ Excel หรือระบบประมวลผล Downstream
- ตัวเลือกใช้ Aspose.PDF.Plugin’s TableGenerator เพื่อฉีดข้อมูลที่โครงสร้างขึ้นกลับไปในไฟล์ PDF หรือรายงานสรุป
สถานการณ์ขั้นสูงและแก้ปัญหา
การสกัดแบทช์:
ผ่านไฟล์ PDF มากมายและรวบรวมข้อมูลโครงสร้างจากเอกสารทั้งหมด
การรวม OCR:
สําหรับไฟล์ PDF ที่สแกนใช้ปลั๊กอิน OCR ก่อนที่จะ استخراجข้อความ
การจัดการข้อผิดพลาด:
บันทึกและบันทึกข้อผิดพลาด API, คําตอบ JSON ไม่ถูกต้องและชิ้นส่วนที่ไม่ได้โครงสร้าง
การปฏิบัติที่ดีที่สุดสําหรับความแม่นยําและการปฏิบัติตาม
- ทําความสะอาดข้อความ PDF ก่อนที่จะส่งไปยัง ChatGPT เพื่อลบหัวหน้า / ฟุต
- หลีกเลี่ยงการส่งเอกสารที่มีความไวโดยไม่ต้องใช้จุดสิ้นสุด AI ที่ปลอดภัย / ที่ได้รับอนุญาต
- สําหรับการสกัดข้อมูลที่สําคัญใช้ขั้นตอนการยืนยันหลังการประมวลผล
FAQ: การ استخراجข้อมูลโครงสร้างด้วย ChatGPT
Q: ประเภทข้อมูลที่โครงสร้างใด ๆ ฉันสามารถสกัดจากไฟล์ PDF ได้หรือไม่A: ตารางรายการฟิลด์ที่ระบุชื่อและรูปแบบปกติ (เช่นวันที่จํานวนมาก IDs)
Q: วิธีการนี้สามารถประมวลผลไฟล์ PDF มากมายในเวลาเดียวกันได้หรือไม่A: ใช่ การสกัดแบทช์ได้รับการสนับสนุน - ลองผ่านชุด PDF ของคุณและรวบรวมผล
**Q: ChatGPT เป็นที่ถูกต้องเสมอกับตารางและหมายเลข?**A: สําหรับผลลัพธ์ที่ดีที่สุดใช้ขั้นตอนที่แม่นยําและยืนยันการส่งออกทั้งหมดในรหัส