วิธีการสกัดข้อมูลโครงสร้างจาก PDF โดยใช้ ChatGPT และ .NET

วิธีการสกัดข้อมูลโครงสร้างจาก PDF โดยใช้ ChatGPT และ .NET

ปล็อคอัตโนมัติขั้นสูงและอัจฉริยะกระแสการทํางานในแอพ .NET ของคุณโดยการสกัดข้อมูลโครงสร้าง (เช่นตารางแบบฟอร์มหรือหน่วย) จากไฟล์ PDF และแปลงเป็นรูปแบบที่สามารถอ่านได้ด้วยเครื่อง คู่มือรายละเอียดนี้ผ่านขั้นตอนทั้งหมด - จากการ استخراجข้อความไปยังข้อมูลที่สมาร์ทผ่านทาง ChatGPT.

การแนะนํา

การสกัดข้อมูลโครงสร้างจากเอกสาร PDF เป็นข้อกําหนดที่สําคัญสําหรับวิสัยทัศน์ธุรกิจการรายงานและการอัตโนมัติ ในขณะที่ Aspose.PDF.Plugin ช่วยให้การสกปรกข้อความที่แข็งแกร่งใน .NET การเชื่อมต่อกับ ChatGPT ช่วยให้คุณสามารถแบ่งประเภทและรูปแบบข้อมูลเป็น JSON, CSV หรือวัตถุโดเมน.

กรณีที่ใช้ทั่วไป:

  • การสกัดข้อมูลบัญชีสําหรับการอัตโนมัติการบัญช
  • แผ่นพาร์ติ้งจากเอกสารวิจัย
  • การแปลงรูปแบบสแกนเป็นบันทึกโครงสร้าง

ขั้นตอน 1: สารสกัดข้อความหรือเนื้อหาตารางจาก PDF

เริ่มต้นโดยใช TextExtractor หรือสําหรับข้อมูลตารางตัวเลือกเฉพาะใน Aspose.PDF.Plugin.

using Aspose.Pdf.Plugins;

var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();

ขั้นตอนที่ 2: การเตรียมและส่งข้อมูลไปยัง ChatGPT

คุณสามารถคําสั่ง ChatGPT เพื่อแบ่งและส่งข้อมูลในรูปแบบที่โครงสร้างเช่น JSON หรือ CSV.

string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples
  • เคล็ดลับสําหรับผลลัพธ์ที่ดีขึ้น:

  • ใช้ข้อเสนอแนะที่ชัดเจนและอ้างอิง: “ดึงตารางของคําอธิบายรายการราคาและรวมเป็น JSON.”

  • สําหรับไฟล์ PDF ขนาดใหญ่สกัดและส่งข้อความในส่วน logic (เช่นตารางหนึ่งในเวลา).

ขั้นตอน 3: Parse และ Validate AI Output

หลังจากรับการตอบสนองของ ChatGPT, parse the structured data using a JSON (หรือ CSV) parser:

// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);

public class InvoiceItem
{
    public string Description { get; set; }
    public decimal Price { get; set; }
    public int Quantity { get; set; }
    public decimal Total { get; set; }
}

ขั้นตอนการยืนยัน:

  • ตรวจสอบประเภทข้อมูลที่ถูกต้อง (หมายเลขวันที่ ฯลฯ.)
  • บันทึกหรือจดหมายข้อมูลที่ไม่สมบูรณ์ / สังวลสําหรับการตรวจสอบ

ขั้นตอน 4: การบันทึกหรือใช้ข้อมูลที่สกัด

  • เก็บผลลัพธ์ที่โครงสร้างขึ้นในฐานข้อมูลไฟล์ Excel หรือระบบประมวลผล Downstream.
  • ตัวเลือกใช้ Aspose.PDF.Plugin’s TableGenerator เพื่อฉีดข้อมูลที่โครงสร้างขึ้นกลับไปในไฟล์ PDF หรือรายงานสรุป.

สถานการณ์ขั้นสูงและแก้ปัญหา

  • การสกัดแบทช:

  • ผ่านไฟล์ PDF มากมายและรวบรวมข้อมูลโครงสร้างจากเอกสารทั้งหมด.

  • การรวม OCR:

  • สําหรับไฟล์ PDF ที่สแกนใช้ปลั๊กอิน OCR ก่อนที่จะ استخراجข้อความ.

  • การจัดการข้อผิดพลาด:

  • บันทึกและบันทึกข้อผิดพลาด API, ไม่ถูกต้อง JSON คําตอบและชิ้นส่วนที่ไม่โครงสร้าง.

การปฏิบัติที่ดีที่สุดสําหรับความแม่นยําและการปฏิบัติตาม

  • ทําความสะอาดข้อความ PDF ก่อนที่จะส่งไปยัง ChatGPT เพื่อลบหัวหน้า / ฟุต.
  • หลีกเลี่ยงการส่งเอกสารที่มีความไวโดยไม่ต้องใช้จุดสิ้นสุด AI ที่ปลอดภัย / ที่ได้รับอนุญาต.
  • สําหรับการสกัดข้อมูลที่สําคัญใช้ขั้นตอนการยืนยันหลังการประมวลผล.

FAQ: การ استخراجข้อมูลโครงสร้างด้วย ChatGPT

**Q: ประเภทข้อมูลที่โครงสร้างใด ๆ ฉันสามารถสกัดจากไฟล์ PDF ได้หรือไม?**A: ตารางรายการฟิลด์ที่ระบุชื่อและรูปแบบปกติ (เช่นวันที่จํานวนมาก IDs).

**Q: วิธีการนี้สามารถประมวลผลไฟล์ PDF มากมายในเวลาเดียวกันได้หรือไม?**A: ใช่ การสกัดแบทช์ได้รับการสนับสนุน—ล็อปผ่านทางของคุณ คู่มือ PDF สร้างและรวมผลลัพธ.

**Q: ChatGPT เป็นที่ถูกต้องเสมอกับตารางและหมายเลข?**A: สําหรับผลลัพธ์ที่ดีที่สุดใช้ขั้นตอนที่แม่นยําและยืนยันการส่งออกทั้งหมดในรหัส.

 แบบไทย