วิธีการสกัดข้อมูลโครงสร้างจาก PDF โดยใช้ ChatGPT และ .NET
ปล็อคอัตโนมัติขั้นสูงและอัจฉริยะกระแสการทํางานในแอพ .NET ของคุณโดยการสกัดข้อมูลโครงสร้าง (เช่นตารางแบบฟอร์มหรือหน่วย) จากไฟล์ PDF และแปลงเป็นรูปแบบที่สามารถอ่านได้ด้วยเครื่อง คู่มือรายละเอียดนี้ผ่านขั้นตอนทั้งหมด - จากการ استخراجข้อความไปยังข้อมูลที่สมาร์ทผ่านทาง ChatGPT.
การแนะนํา
การสกัดข้อมูลโครงสร้างจากเอกสาร PDF เป็นข้อกําหนดที่สําคัญสําหรับวิสัยทัศน์ธุรกิจการรายงานและการอัตโนมัติ ในขณะที่ Aspose.PDF.Plugin ช่วยให้การสกปรกข้อความที่แข็งแกร่งใน .NET การเชื่อมต่อกับ ChatGPT ช่วยให้คุณสามารถแบ่งประเภทและรูปแบบข้อมูลเป็น JSON, CSV หรือวัตถุโดเมน.
กรณีที่ใช้ทั่วไป:
- การสกัดข้อมูลบัญชีสําหรับการอัตโนมัติการบัญช
- แผ่นพาร์ติ้งจากเอกสารวิจัย
- การแปลงรูปแบบสแกนเป็นบันทึกโครงสร้าง
ขั้นตอน 1: สารสกัดข้อความหรือเนื้อหาตารางจาก PDF
เริ่มต้นโดยใช TextExtractor
หรือสําหรับข้อมูลตารางตัวเลือกเฉพาะใน Aspose.PDF.Plugin.
using Aspose.Pdf.Plugins;
var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();
ขั้นตอนที่ 2: การเตรียมและส่งข้อมูลไปยัง ChatGPT
คุณสามารถคําสั่ง ChatGPT เพื่อแบ่งและส่งข้อมูลในรูปแบบที่โครงสร้างเช่น JSON หรือ CSV.
string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples
เคล็ดลับสําหรับผลลัพธ์ที่ดีขึ้น:
ใช้ข้อเสนอแนะที่ชัดเจนและอ้างอิง: “ดึงตารางของคําอธิบายรายการราคาและรวมเป็น JSON.”
สําหรับไฟล์ PDF ขนาดใหญ่สกัดและส่งข้อความในส่วน logic (เช่นตารางหนึ่งในเวลา).
ขั้นตอน 3: Parse และ Validate AI Output
หลังจากรับการตอบสนองของ ChatGPT, parse the structured data using a JSON (หรือ CSV) parser:
// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);
public class InvoiceItem
{
public string Description { get; set; }
public decimal Price { get; set; }
public int Quantity { get; set; }
public decimal Total { get; set; }
}
ขั้นตอนการยืนยัน:
- ตรวจสอบประเภทข้อมูลที่ถูกต้อง (หมายเลขวันที่ ฯลฯ.)
- บันทึกหรือจดหมายข้อมูลที่ไม่สมบูรณ์ / สังวลสําหรับการตรวจสอบ
ขั้นตอน 4: การบันทึกหรือใช้ข้อมูลที่สกัด
- เก็บผลลัพธ์ที่โครงสร้างขึ้นในฐานข้อมูลไฟล์ Excel หรือระบบประมวลผล Downstream.
- ตัวเลือกใช้ Aspose.PDF.Plugin’s TableGenerator เพื่อฉีดข้อมูลที่โครงสร้างขึ้นกลับไปในไฟล์ PDF หรือรายงานสรุป.
สถานการณ์ขั้นสูงและแก้ปัญหา
การสกัดแบทช:
ผ่านไฟล์ PDF มากมายและรวบรวมข้อมูลโครงสร้างจากเอกสารทั้งหมด.
การรวม OCR:
สําหรับไฟล์ PDF ที่สแกนใช้ปลั๊กอิน OCR ก่อนที่จะ استخراجข้อความ.
การจัดการข้อผิดพลาด:
บันทึกและบันทึกข้อผิดพลาด API, ไม่ถูกต้อง JSON คําตอบและชิ้นส่วนที่ไม่โครงสร้าง.
การปฏิบัติที่ดีที่สุดสําหรับความแม่นยําและการปฏิบัติตาม
- ทําความสะอาดข้อความ PDF ก่อนที่จะส่งไปยัง ChatGPT เพื่อลบหัวหน้า / ฟุต.
- หลีกเลี่ยงการส่งเอกสารที่มีความไวโดยไม่ต้องใช้จุดสิ้นสุด AI ที่ปลอดภัย / ที่ได้รับอนุญาต.
- สําหรับการสกัดข้อมูลที่สําคัญใช้ขั้นตอนการยืนยันหลังการประมวลผล.
FAQ: การ استخراجข้อมูลโครงสร้างด้วย ChatGPT
**Q: ประเภทข้อมูลที่โครงสร้างใด ๆ ฉันสามารถสกัดจากไฟล์ PDF ได้หรือไม?**A: ตารางรายการฟิลด์ที่ระบุชื่อและรูปแบบปกติ (เช่นวันที่จํานวนมาก IDs).
**Q: วิธีการนี้สามารถประมวลผลไฟล์ PDF มากมายในเวลาเดียวกันได้หรือไม?**A: ใช่ การสกัดแบทช์ได้รับการสนับสนุน—ล็อปผ่านทางของคุณ คู่มือ PDF สร้างและรวมผลลัพธ.
**Q: ChatGPT เป็นที่ถูกต้องเสมอกับตารางและหมายเลข?**A: สําหรับผลลัพธ์ที่ดีที่สุดใช้ขั้นตอนที่แม่นยําและยืนยันการส่งออกทั้งหมดในรหัส.