ملحق استخراج النص لـ Aspose.PDF
Aspose.PDF Text Extractor Plugin for .NET يتيح للمطورين استخراج محتوى النص -الهيكل أو المسطح أو as-is - من ملفات PDF.مع ثلاثة طرق الاستخراج ، فهي مثالية لتحويل المستندات ، وتعدين البيانات ، وتحسينات الوصول ، وأكثر من ذلك.
أحدث المقالات
Aspose.PDF نص استخراج ملحق المفاتيح
- طرق الاستخراج المتعددة*استخراج النص على النحو النقي (الشكل) أو الخام (المصدر)، أو المسطح (النظيف) للحصول على أقصى قدر من المرونة.
** معالجة PDF بتش**إضافة العديد من ملفات PDF للحصول على استخراج متزامن وتدفقات العمل المتسارعة.
- التكامل البسيط .NET*API المباشر – إضافة إلى أي مشروع C# أو .NET لتنفيذ سريع.
** بدءاً من Aspose.PDF Text Extractor Plugin**
تثبيت Aspose.PDF لـ .NETإضافة عبر NuGet أو تنزيل مجموعات إلى حل .NET الخاص بك.
إعداد ترخيصكيتم تشغيلها للحصول على معالجة ودعم غير محدود.
** إعداد خيارات الاستخراج**استخدام
TextExtractor
وTextExtractorOptions
وضع وضع الاستخراج كما هو مطلوب (نقي، خام، مسطح).العملية و Retrieve Textتشغيل نتائج الاستخراج والوصول من خلال مجموعة الحاويات النتيجة.
مثال: استخراج النص من PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
على سبيل المثال: استخراج النص من مجموعة متنوعة من PDF
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
استخدام الحالات والتمديدات
- PDF إلى TXT التحويل: تحويل PDF تلقائيًا إلى نص مسطح للتصنيف أو البحث أو الأرشيف.
- تعدين البيانات: استخراج بيانات الجدول أو الفواتير أو النماذج لمزيد من المعالجة أو التحليل.
- الوصول: إعداد المحتوى القابل للقراءة لقراء الشاشة أو تنسيقات بديلة.
- معالجة الانحناء: استخدم طرق الاستخراج لتدفقات العمل المنخفضة المحددة (على سبيل المثال، OCR المسبقة، التعرف على الكيان).
للحصول على استخراج متقدم – مثل التعامل مع ملفات PDF المشفرة، أو تخصيص النتائج النصية – يشير إلى إشارة API الرسمية.
* أفضل الممارسات *
- اختر دائمًا وضع الاستخراج الذي يتوافق مع احتياجات الإنتاج الخاصة بك (التصميم أو الخام أو النظيفة).
- بالنسبة لمجموعات الوثائق الكبيرة ، فإن عملية الحزمة لتحقيق أقصى قدر من الإمدادات والحد الأدنى من الجهد اليدوي.
- نتائج استخراج الاختبارات مع PDFs في العالم الحقيقي لضمان دقة البيانات.
**الموارد ذات الصلة: *