كيفية استخراج البيانات والجدول من PDF في .NET

كيفية استخراج البيانات والجدول من PDF في .NET

استخراج الجداول والبيانات المنظمة من PDFs هو مهمة شائعة بالنسبة للمحللين والمحاسبين، وأي شخص يعمل مع التقارير أو البيانات المالية. Aspose.PDF.Plugin ل .NET يقدم خيارات برمجية للكشف عن، وقطع، وتصدير اللوحات مثل النص المسطح، CSV، أو JSON.

التعرف على اللوحات في PDF Text

  • بساطة PDF: الألواح مع حدود الخلية الواضحة (الخطوط أو الفضاء أو الخطوط) هي الأسهل في استخراجها.
  • التفتيش البصري: استخراج النص الخام أو النقي والتحقق من أنماط الترتيب / الأعمدة المتسقة.
  • السلسلة الهيورستية: استخدم المنطق (على سبيل المثال، التعبيرات العادية، المقياسات) لتحديد الصفوف المحتملة والعمود من النص المستخرج.

نموذج: تصدير اللوحات كCSV

using Aspose.Pdf.Plugins;
using System.IO;

string input = @"C:\Docs\financial-report.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(input));
string extracted = extractor.Process(options).ResultCollection[0].ToString();

// Simple parsing: Assume rows separated by '\n', columns by tabs or spaces
var rows = extracted.Split('\n');
using (var writer = new StreamWriter(@"C:\Docs\extracted-table.csv"))
{
    foreach (var row in rows)
    {
        var columns = row.Split(new[] {'\t', ' '}, StringSplitOptions.RemoveEmptyEntries);
        writer.WriteLine(string.Join(",", columns));
    }
}

نموذج: تصدير اللوحات كJSON

using System.Text.Json;
var table = rows
    .Where(r => r.Trim().Length > 0)
    .Select(r => r.Split(new[] {'\t', ' '}, StringSplitOptions.RemoveEmptyEntries))
    .ToList();

File.WriteAllText(@"C:\Docs\extracted-table.json", JsonSerializer.Serialize(table));

الحد الأدنى والنصائح المتقدمة

  • الخلايا المختلطة: معظم استخراج البرمجيات لا يمكن أن يكتشف بشكل موثوق الخلفيات المترابطة أو متعددة الألواح؛ قد يكون من الضروري مراجعة يدوية أو المنطق المخصص.
  • **الجدول المعقدة:**تتطلب اللوحات مع الصور أو الرسومات أو التصاميم غير المشروعة التمزق المتقدم أو أداة استخراج الجدول البصري.
  • دقة: الاستخراج هو الأفضل مع البرامج البسيطة والمنظمة بشكل جيد؛ دائما مراجعة الناتج وتعديل منطق التفريغ لبياناتك.

حالات الاستخدام

  • التحليل المالي والتدقيق (مراجعات الاستخراج، لوحات التكاليف)
  • بيانات الاستطلاع والردود الفعلية (لوحات الاستجابة الجماعية)
  • نقل البيانات من PDFs إلى قواعد بيانات أو Excel

الأسئلة المتكررة

**س: هل يمكن اكتشاف الخلايا المدمجة أو التعامل معها تلقائيًا?**الجواب: غير موثوق – الخلايا المختلطة/المتشابكة عادة ما تتطلب التصحيح اليدوي أو الفحص البصري بعد استخراجها.

**س: هل استخراج البيانات دقيق بنسبة 100?**A: لا – النتائج تعتمد على هيكل الجدول، وتصميم، و PDF دائمًا مراجعة اللوحات المستخرجة ، وإذا لزم الأمر ، قم بتنظيفها باستخدام القواعد أو النصوص المخصصة.

**Q: ما هو أفضل وضع لاستخراج الطاولة?**A: ابدأ بالوضع النقي للجدول المنظمة.ويمكن أن يكون الوضع الخام مفيدًا لتعدين البيانات أو الهورستيات المخصصة.

نصيحة مهنية: لتكرار الاستخراج، قم بتنظيف منطق الخصم الخاص بك لكل قالب تقرير CSV و JSON الحد الأقصى من المرونة.

 عربي