چگونگی استخراج داده های ساختاری از PDF با استفاده از ChatGPT و .NET

اتوماسیون پیشرفته و جریان های کار مبتنی بر هوش مصنوعی را در برنامه های .NET خود با استخراج داده های ساختار یافته (مانند جدول ها، فرم ها یا اشخاص) از فایل های PDF و تبدیل آن به فرمت های قابل خواندن ماشین از بین ببرید.این راهنمای دقیق از طریق تمام مراحل – از استخراعات متن به اطلاعات هوشمند با استفاده از ChatGPT عبور می کند.

معرفی

در حالی که Aspose.PDF.Plugin امکان استخراج متن قوی در .NET را فراهم می کند، ترکیب آن با ChatGPT به شما اجازه می دهد تا اطلاعات را به عنوان JSON، CSV یا اشیاء دامنه پارس، دسته بندی و فرمت کنید.

موارد استفاده رایج:

فاکتور استخراج داده برای اتوماسیون حسابداری
برچسب های ارشیو از مقالات تحقیقاتی
تبدیل فرم های اسکن شده به سوابق ساختار یافته

مرحله 1: استخراج متن یا محتوای جدول از PDF

شروع با استفاده از TextExtractor یا، برای داده های جدول، گزینه های تخصصی در Aspose.PDF.Plugin.

using Aspose.Pdf.Plugins;

var inputPath = @"C:\Docs\invoice.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string rawText = resultContainer.ResultCollection[0].ToString();

مرحله 2: آماده سازی و ارسال پیام به ChatGPT

شما می توانید ChatGPT را به پارس و بازگرداندن داده ها در یک فرمت ساختار یافته مانند JSON یا CSV دستور دهید.

string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Extract the following invoice data as JSON: {rawText}";
// Use HttpClient as in previous examples

توصیه برای نتایج بهتری:
از عبارات روشن و صریح استفاده کنید: “یک جدول از توصیفات، قیمت ها و مجموع ها را به عنوان JSON استخراج کنید.”
برای فایل های بزرگ، استخراج و ارسال متن در بخش های منطقی (به عنوان مثال، یک جدول در یک زمان).

مرحله 3: Parse و Validate AI Output

پس از دریافت پاسخ ChatGPT، داده های ساختاری را با استفاده از یک پارسر JSON (یا CSV) پارس کنید:

// Assume jsonData is a JSON string received from ChatGPT
var structuredData = JsonConvert.DeserializeObject<List<InvoiceItem>>(jsonData);

public class InvoiceItem
{
    public string Description { get; set; }
    public decimal Price { get; set; }
    public int Quantity { get; set; }
    public decimal Total { get; set; }
}

مراحل اعتباربخشی:

بررسی انواع داده های معتبر (عدد، تاریخ و غیره.)
ثبت نام یا پرچم داده های نامناسب / دوگانه برای بررسی

مرحله 4: ذخیره یا استفاده از داده های استخراج شده

نتایج ساختار یافته را در یک پایگاه داده، فایل اکسل یا سیستم پردازش پایین ذخیره کنید.
به صورت اختیاری از Aspose.PDF.Plugin TableGenerator برای تزریق داده های ساختار یافته به یک خلاصه PDF یا گزارش استفاده کنید.

نمونه های پیشرفته و حل مشکلات

تولید بوتاکس:
از طریق چندین PDF عبور کنید و داده های ساختاری را از تمام اسناد جمع آوری کنید.
ترکیبی از OCR:
برای فایل های اسکن شده، ابتدا قبل از استخراج متن از پلاگین های OCR استفاده کنید.
تصمیم گیری اشتباه:
ضبط و ثبت خطای API، نادرست JSON پاسخ ها و قطعات غیرقانونی.

بهترین شیوه ها برای دقت و انطباق

قبل از ارسال به ChatGPT متن PDF را تمیز کنید تا سر و پاها را حذف کنید.
از ارسال اسناد حساس اجتناب کنید مگر اینکه از نقاط پایان AI امن یا مجاز استفاده کنید.
برای استخراج داده های مهم، از یک مرحله اعتباربخشی پس از پردازش استفاده کنید.

FAQ: استخراج داده های ساختاری با ChatGPT

**Q: چه نوع داده های ساختاری را می توانم از PDF ها استخراج کنم?**A: جدول، لیست ها، میدان های نامیده شده و الگوهای منظم (مانند تاریخ، مقدار، شناسه ها).

**Q: آیا این روش می تواند چندین فایل PDF را به طور همزمان پردازش کند?**A: بله، استخراج بتچ پشتیبانی می شود – از طریق PDF نتایج را جمع و جمع کنید.

**Q: آیا ChatGPT همیشه با جدول ها و اعداد دقیق است?**A: برای بهترین نتایج، از سرعت های دقیق استفاده کنید و تمام خروجی ها را در کد تأیید کنید.