ملحق استخراج النص لـ Aspose.PDF

Aspose.PDF Text Extractor Plugin for .NET يتيح للمطورين استخراج محتوى النص -الهيكل أو المسطح أو as-is- من PDF مع ثلاثة طرق الاستخراج، فإنه مثالي لتحويل المستندات، وتعدين البيانات، وتحسينات الوصول، وأكثر من ذلك.

أحدث المقالات

كيفية استخراج النص من PDFs في .NET كيفية استخراج البيانات والجدول من PDF في .NET

Aspose.PDF نص استخراج ملحق المفاتيح

طرق الاستخراج المتعددةاستخراج النص على النحو النقي (الشكل) أو الخام (المصدر)، أو المسطح (النظيف) للحصول على أقصى قدر من المرونة.
معالجة PDF بتشإضافة العديد من ملفات PDF للحصول على استخراج متزامن وتدفقات العمل المتسارعة.
التكامل البسيط .NETAPI المباشر – إضافة إلى أي مشروع C# أو .NET لتنفيذ سريع.

بدءاً من Aspose.PDF Text Extractor Plugin

تثبيت Aspose.PDF لـ .NETإضافة عبر NuGet أو تنزيل مجموعات إلى حل .NET الخاص بك.
إعداد ترخيصكيتم تشغيلها للحصول على معالجة ودعم غير محدود.
إعداد خيارات الاستخراجاستخدام TextExtractor و TextExtractorOptions وضع وضع الاستخراج كما هو مطلوب (نقي، خام، مسطح).
العملية و Retrieve Textتشغيل نتائج الاستخراج والوصول من خلال مجموعة الحاويات النتيجة.

مثال: استخراج النص من PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

على سبيل المثال: استخراج النص من مجموعة متنوعة من PDF

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

استخدام الحالات والتمديدات

PDF إلى TXT التحويل: تحويل PDF تلقائيًا إلى نص مسطح للتصنيف أو البحث أو الأرشيف.
تعدين البيانات: استخراج بيانات الجدول أو الفواتير أو النماذج لمزيد من المعالجة أو التحليل.
الوصول: إعداد المحتوى القابل للقراءة لقراء الشاشة أو تنسيقات بديلة.
معالجة الانحناء: استخدم طرق الاستخراج لتدفقات العمل المنخفضة المحددة (على سبيل المثال، OCR المسبقة، التعرف على الكيان).

للحصول على استخراج متقدم – مثل التعامل مع ملفات PDF المشفرة، أو تخصيص النتائج النصية – يشير إلى إشارة API الرسمية.

أفضل الممارسات

اختر دائمًا وضع الاستخراج الذي يتوافق مع احتياجات الإنتاج الخاصة بك (التصميم أو الخام أو النظيفة).
بالنسبة لمجموعات الوثائق الكبيرة ، فإن عملية الحزمة لتحقيق أقصى قدر من الإمدادات والحد الأدنى من الجهد اليدوي.
نتائج استخراج الاختبارات مع PDFs في العالم الحقيقي لضمان دقة البيانات.

الموارد ذات الصلة: