วิธีการสกัดข้อมูลโครงสร้างจาก PDF โดยใช้ ChatGPT และ .NET

วิธีการสกัดข้อมูลโครงสร้างจาก PDF โดยใช้ ChatGPT และ .NET

ปล็อคอัตโนมัติขั้นสูงและอัจฉริยะกระแสการทํางานในแอพ .NET ของคุณโดยการสกัดข้อมูลโครงสร้าง (เช่นตารางแบบฟอร์มหรือหน่วย) จากไฟล์ PDF และแปลงเป็นรูปแบบที่สามารถอ่านได้ด้วยเครื่อง คู่มือรายละเอียดนี้ผ่านขั้นตอนทั้งหมด - จากการ استخراجข้อความไปยังข้อมูลที่สมาร์ทผ่านทาง ChatGPT

การแนะนํา

การสกัดข้อมูลโครงสร้างจากเอกสาร PDF เป็นข้อกําหนดที่สําคัญสําหรับวิสัยทัศน์ธุรกิจการรายงานและการอัตโนมัติ ในขณะที่ Aspose.PDF.Plugin ช่วยให้การสกปรกข้อความที่แข็งแกร่งใน .NET การเชื่อมต่อกับ ChatGPT ช่วยให้คุณสามารถแบ่งประเภทและรูปแบบข้อมูลเป็น JSON, CSV หรือวัตถุโดเมน

กรณีที่ใช้ทั่วไป:

  • การสกัดข้อมูลบัญชีสําหรับการอัตโนมัติการบัญชี
  • แผ่นพาร์ติ้งจากเอกสารวิจัย
  • การแปลงรูปแบบสแกนเป็นบันทึกโครงสร้าง

ขั้นตอน 1: สารสกัดข้อความหรือเนื้อหาตารางจาก PDF

เริ่มต้นโดยใช้ TextExtractor หรือสําหรับข้อมูลตารางตัวเลือกเฉพาะใน Aspose.PDF.Plugin

using Aspose.Pdf.Plugins;

var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();

ขั้นตอนที่ 2: การเตรียมและส่งข้อมูลไปยัง ChatGPT

คุณสามารถคําสั่ง ChatGPT เพื่อแบ่งและส่งข้อมูลในรูปแบบที่โครงสร้างเช่น JSON หรือ CSV

string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples
  • เคล็ดลับสําหรับผลลัพธ์ที่ดีขึ้น:

  • ใช้ข้อเสนอแนะที่ชัดเจนและอ้างอิง: “ดึงตารางของคําอธิบายรายการราคาและรวมเป็น JSON”

  • สําหรับไฟล์ PDF ขนาดใหญ่สกัดและส่งข้อความในส่วน logic (เช่นตารางหนึ่งในเวลา)

ขั้นตอน 3: Parse และ Validate AI Output

หลังจากรับการตอบสนองของ ChatGPT, parse the structured data using a JSON (หรือ CSV) parser:

// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);

public class InvoiceItem
{
    public string Description { get; set; }
    public decimal Price { get; set; }
    public int Quantity { get; set; }
    public decimal Total { get; set; }
}

ขั้นตอนการยืนยัน:

  • ตรวจสอบประเภทข้อมูลที่ถูกต้อง (หมายเลขวันที่ ฯลฯ )
  • บันทึกหรือจดหมายข้อมูลที่ไม่สมบูรณ์ / สังวลสําหรับการตรวจสอบ

ขั้นตอน 4: การบันทึกหรือใช้ข้อมูลที่สกัด

  • เก็บผลลัพธ์ที่โครงสร้างขึ้นในฐานข้อมูลไฟล์ Excel หรือระบบประมวลผล Downstream
  • ตัวเลือกใช้ Aspose.PDF.Plugin’s TableGenerator เพื่อฉีดข้อมูลที่โครงสร้างขึ้นกลับไปในไฟล์ PDF หรือรายงานสรุป

สถานการณ์ขั้นสูงและแก้ปัญหา

  • การสกัดแบทช์:

  • ผ่านไฟล์ PDF มากมายและรวบรวมข้อมูลโครงสร้างจากเอกสารทั้งหมด

  • การรวม OCR:

  • สําหรับไฟล์ PDF ที่สแกนใช้ปลั๊กอิน OCR ก่อนที่จะ استخراجข้อความ

  • การจัดการข้อผิดพลาด:

  • บันทึกและบันทึกข้อผิดพลาด API, คําตอบ JSON ไม่ถูกต้องและชิ้นส่วนที่ไม่ได้โครงสร้าง

การปฏิบัติที่ดีที่สุดสําหรับความแม่นยําและการปฏิบัติตาม

  • ทําความสะอาดข้อความ PDF ก่อนที่จะส่งไปยัง ChatGPT เพื่อลบหัวหน้า / ฟุต
  • หลีกเลี่ยงการส่งเอกสารที่มีความไวโดยไม่ต้องใช้จุดสิ้นสุด AI ที่ปลอดภัย / ที่ได้รับอนุญาต
  • สําหรับการสกัดข้อมูลที่สําคัญใช้ขั้นตอนการยืนยันหลังการประมวลผล

FAQ: การ استخراجข้อมูลโครงสร้างด้วย ChatGPT

Q: ประเภทข้อมูลที่โครงสร้างใด ๆ ฉันสามารถสกัดจากไฟล์ PDF ได้หรือไม่A: ตารางรายการฟิลด์ที่ระบุชื่อและรูปแบบปกติ (เช่นวันที่จํานวนมาก IDs)

Q: วิธีการนี้สามารถประมวลผลไฟล์ PDF มากมายในเวลาเดียวกันได้หรือไม่A: ใช่ การสกัดแบทช์ได้รับการสนับสนุน - ลองผ่านชุด PDF ของคุณและรวบรวมผล

**Q: ChatGPT เป็นที่ถูกต้องเสมอกับตารางและหมายเลข?**A: สําหรับผลลัพธ์ที่ดีที่สุดใช้ขั้นตอนที่แม่นยําและยืนยันการส่งออกทั้งหมดในรหัส

 แบบไทย