كيفية استخراج النص من ملفات PDF المسح الضوئي في .NET باستخدام Aspose.OCR
إن تحويل هذه الصور إلى مستندات نصية قابلة للبحث والترتيب يفتح عالمًا من الإمكانيات لإدارة المستندات والوصول إلى المحتوى.مع Aspose.OCR for .NET ، يمكنك تحويل مستندات PDF المسجلة إلى مستندات قابلة للبحث بالكامل مع الحفاظ على الصور الأصلية.
لماذا OCR (المعرفة البصرية للشخصية) مهمة لملفات PDF المسح الضوئي
استبعاد البيانات:- يتيح لك OCR تحويل النص الماسح الضوئي إلى بيانات قابلة للقراءة بالآلة ، والتي يمكن تعديلها وتصنيفها.
إمكانية البحث:- من خلال تحويل ملفات PDF المسح الضوئي إلى مستندات قابلة للبحث ، يمكنك العثور بسرعة على المعلومات ذات الصلة دون البحث اليدوي عبر الصفحات.
تحسين الإنتاجية:- توفير الوقت عن طريق تلقائي تحويل المستندات المسح الضوئي إلى تنسيقات قابلة للتعديل مثل Word أو Excel.
متطلبات: إعدادات لفحص PDF Text Extraction
قبل البدء في استخراج النص من ملفات PDF المسح الضوئي الخاصة بك، تأكد من أن الخطوات التالية كاملة:
تثبيت Aspose.OCR لـ .NET:- إضافة Aspose.OCR إلى مشروعك باستخدام NuGet:
dotnet add package Aspose.OCR
احصل على رخصة قياسية:- قم بتعيين ترخيص القياس الخاص بك لإلغاء قفل جميع الميزات في مكتبة Aspose.OCR باستخدام
SetMeteredKey()
.إعداد ملفات PDF المسح الضوئي الخاصة بك:- تأكد من أن PDFs المسح الضوئي الخاص بك هي عالية الجودة.أفضل جودة النتائج في OCR أكثر دقة.
دليل خطوة بخطوة: استخراج النص من PDFs المسح
الخطوة 1: قم بتثبيت المكتبة المطلوبة
ابدأ بتثبيت Aspose.OCR for .NET في مشروعك.يمكنك القيام بذلك مباشرة من NuGet.
dotnet add package Aspose.OCR
الخطوة 2: قم بتثبيت مفاتيح الترخيص الخاصة بك
قبل الإجراء، قم بتعيين ترخيصك لـ Aspose.OCR لإلغاء قفل جميع الميزات.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
الخطوة 3: تحميل PDF المسح الضوئي إلى OCR Input Object
سوف تحتاج إلى تحميل PDF المسح الضوئي في OcrInput
موضوع. Aspose.OCR يدعم فحص صفحات PDF متعددة.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
الخطوة 4: معالجة PDF المسح باستخدام محرك OCR
مع تحميل PDF ، قم بنقلها إلى محرك Aspose OCR للتعرف.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
الخطوة 5: إخراج النص المعترف به أو حفظه
بمجرد أن يعالج محرك OCR PDF ، يمكنك إما إخراج النص المعترف به مباشرة أو حفظه في ملف.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
الخطوة 6: اختبار وتحسين نتائج OCR
بعد استخراج النص، اختبار النتيجة للحصول على دقة.إذا لزم الأمر، يمكنك تحريك إعدادات OCR لتحسين النتائج لمختلف ترتيبات المستندات.
المشاكل المشتركة والتصحيح
1- ضعف دقة OCR
- الحل: تأكد من أن جودة PDF التي تم فحصها عالية.استخدم فحوصات عالية الدقة لتحسين دقة التعرف.
2- الخطوط غير المدعومة
- الحل: توفير إعدادات اللغة الصحيحة في خيارات OCR لتعزيز التعرف على الأحرف غير اللاتينية.
3- أداء بطيئ
- الحل: تقسيم PDF إلى أجزاء أصغر أو صفحات لأسرع معالجة، وخاصة بالنسبة للمستندات الكبيرة.