ملحق استخراج النص لـ Aspose.PDF

Aspose.PDF Text Extractor Plugin for .NET يتيح للمطورين استخراج محتوى النص -الهيكل أو المسطح أو as-is - من ملفات PDF.مع ثلاثة طرق الاستخراج ، فهي مثالية لتحويل المستندات ، وتعدين البيانات ، وتحسينات الوصول ، وأكثر من ذلك.

أحدث المقالات

Aspose.PDF نص استخراج ملحق المفاتيح

    • طرق الاستخراج المتعددة*استخراج النص على النحو النقي (الشكل) أو الخام (المصدر)، أو المسطح (النظيف) للحصول على أقصى قدر من المرونة.
  • ** معالجة PDF بتش**إضافة العديد من ملفات PDF للحصول على استخراج متزامن وتدفقات العمل المتسارعة.

    • التكامل البسيط .NET*API المباشر – إضافة إلى أي مشروع C# أو .NET لتنفيذ سريع.

** بدءاً من Aspose.PDF Text Extractor Plugin**

  • تثبيت Aspose.PDF لـ .NETإضافة عبر NuGet أو تنزيل مجموعات إلى حل .NET الخاص بك.

  • إعداد ترخيصكيتم تشغيلها للحصول على معالجة ودعم غير محدود.

  • ** إعداد خيارات الاستخراج**استخدام TextExtractor و TextExtractorOptions وضع وضع الاستخراج كما هو مطلوب (نقي، خام، مسطح).

  • العملية و Retrieve Textتشغيل نتائج الاستخراج والوصول من خلال مجموعة الحاويات النتيجة.

مثال: استخراج النص من PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

على سبيل المثال: استخراج النص من مجموعة متنوعة من PDF

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

استخدام الحالات والتمديدات

  • PDF إلى TXT التحويل: تحويل PDF تلقائيًا إلى نص مسطح للتصنيف أو البحث أو الأرشيف.
  • تعدين البيانات: استخراج بيانات الجدول أو الفواتير أو النماذج لمزيد من المعالجة أو التحليل.
  • الوصول: إعداد المحتوى القابل للقراءة لقراء الشاشة أو تنسيقات بديلة.
  • معالجة الانحناء: استخدم طرق الاستخراج لتدفقات العمل المنخفضة المحددة (على سبيل المثال، OCR المسبقة، التعرف على الكيان).

للحصول على استخراج متقدم – مثل التعامل مع ملفات PDF المشفرة، أو تخصيص النتائج النصية – يشير إلى إشارة API الرسمية.

* أفضل الممارسات *

  • اختر دائمًا وضع الاستخراج الذي يتوافق مع احتياجات الإنتاج الخاصة بك (التصميم أو الخام أو النظيفة).
  • بالنسبة لمجموعات الوثائق الكبيرة ، فإن عملية الحزمة لتحقيق أقصى قدر من الإمدادات والحد الأدنى من الجهد اليدوي.
  • نتائج استخراج الاختبارات مع PDFs في العالم الحقيقي لضمان دقة البيانات.

**الموارد ذات الصلة: *

 عربي