كيفية استخراج البيانات المنظمة من PDF باستخدام ChatGPT و .NET

يفتح التلقائيات المتقدمة وتدفقات العمل القائمة على الذكاء الاصطناعي في تطبيقات .NET الخاصة بك عن طريق استخراج البيانات المنظمة (مثل الجداول أو النماذج أو الكيانات) من ملفات PDF وتحويلها إلى تنسيقات قابلة للقراءة بالآلة.

إدخال

في حين أن Aspose.PDF.Plugin يسمح استخراج نص قوي في .NET، جنبا إلى جنب مع ChatGPT يتيح لك لتقسيم، تصنيف، وتشكيل المعلومات مثل JSON، CSV، أو كائنات النطاق.

الحالات الشائعة للاستخدام:

استخراج البيانات الحسابية لأتمتة المحاسبة
تداول الخيارات الثنائية من ورقة البحث
تحويل النماذج المسجلة إلى سجلات منظمة

الخطوة 1: استخراج النص أو المحتوى المكتبي من PDF

ابدأ باستخدام TextExtractor أو، بالنسبة للبيانات اللوحية، خيارات متخصصة في Aspose.PDF.Plugin.

using Aspose.Pdf.Plugins;

var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();

الخطوة 2: إعداد وإرسال البروتوكولات إلى ChatGPT

يمكنك إرشاد ChatGPT لتقسيم وإرجاع البيانات في تنسيق منظم مثل JSON أو CSV.

string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples

نصائح للحصول على نتائج أفضل:
استخدم إشارات واضحة وشفافية: “إزالة جدول من وصف العناصر والأسعار والمجموعات كJSON.”
بالنسبة لملفات PDF الكبيرة، استخراج وإرسال النص في أقسام منطقية (على سبيل المثال، جدول واحد في وقت واحد).

الخطوة الثالثة: تصحيح وتأكيد إخراج AI

بعد الحصول على استجابة ChatGPT ، قم بتقسيم البيانات المنظمة باستخدام JSON (أو CSV:

// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);

public class InvoiceItem
{
    public string Description { get; set; }
    public decimal Price { get; set; }
    public int Quantity { get; set; }
    public decimal Total { get; set; }
}

خطوات التصديق:

تحقق من أنواع البيانات الصحيحة (الأرقام، التاريخ، إلخ.)
سجل أو علامة غير كاملة / بيانات غامضة للمراجعة

الخطوة 4: حفظ أو استخدام البيانات المستخرجة

تخزين النتائج المنظمة في قاعدة بيانات أو ملف Excel أو نظام المعالجة المنخفضة.
اختياريًا ، استخدم Aspose.PDF.Plugin’s TableGenerator لإدخال البيانات المنظمة مرة أخرى في ملخص PDF أو تقرير.

السيناريوهات المتقدمة وحل المشكلات

إزالة البطارية:
قفز عبر العديد من ملفات PDF وتجميع البيانات المنظمة من جميع المستندات.
مزيج من OCR:
بالنسبة لملفات PDF المسح الضوئي ، استخدم المكونات الإضافية OCR أولاً قبل استخراج النص.
خطأ في التعامل مع:
التقاط وتسجيل أخطاء API، غير صالحة JSON ردود الفعل، والقطع غير المنظمة.

أفضل الممارسات من أجل الدقة والامتثال

قم بتنظيف نص PDF مسبقًا قبل إرساله إلى ChatGPT لإزالة الرؤوس/الخطوط.
تجنب إرسال الوثائق الحساسة ما لم تستخدم نقاط الذكاء الاصطناعي الآمنة / المعتمدة.
لاستخراج البيانات الحرجة، استخدم خطوة التحقق ما بعد المعالجة.

FAQ: استخراج البيانات المنظمة باستخدام ChatGPT

**س: ما هي أنواع البيانات المنظمة التي يمكنني استخراجها من PDFs?**A: الجدول، القوائم، الحقول المسمى، والنماذج العادية (مثل التواريخ، المبالغ، الهوية).

**س: هل يمكن لهذه الطريقة معالجة العديد من ملفات PDF في وقت واحد?**الجواب: نعم، يتم دعم استخراج الحفرة – الدوران من خلال PDF إعداد وتجميع النتائج.

**س: هل ChatGPT دائمًا دقيق مع الجداول والأرقام?**ج: للحصول على أفضل النتائج، استخدم النقاط الدقيقة وتأكيد جميع الناتج في الرمز.