كيفية استخراج النص من ملفات PDF المسح باستخدام Aspose.OCR

استخراج النص من المسح أو الصورة القائمة PDF الملفات المستخدمة لتتطلب تدفقات العمل المعقدة أو العمل اليدوي باهظة الثمن.مع Aspose.OCR مسح PDF إلى النص ل .NET، يمكنك تلقائي هذه العملية، وتحويل PDFs إلى نص قابل للبحث والتحرير مع عدد قليل فقط من خطوط الرمز.

مشكلة العالم الحقيقي

وتتلقى المنظمات في كثير من الأحيان عقود أو تقارير أو أرشيفات مثل PDFs المسح اليدوي النسخة أو البحث داخل هذه الوثائق هو حزين وخطأ، وتباطؤ الامتثال، ورسائل، ومشاريع التحويل الرقمي.

نظرة عامة على الحل

Aspose.OCR for .NET يسمح لك بتجميع معالجة المفاتيح المسح الضوئي - تحويلها إلى نص أو ملفات PDF قابلة للبحث ، مما يجعل المعلومات سهلة الوصول ، مقارنة ، جاهزة لتدفقات العمل الرقمية.

المتطلبات

قبل البدء، تأكد من أن لديك:

Visual Studio 2019 أو أحدث
.NET 6.0 أو أعلى (أو .NET Framework 4.6.2+)
Aspose.OCR لـ .NET من NuGet
معرفة أساسية C

PM> Install-Package Aspose.OCR

تنفيذ خطوة بخطوة

الخطوة 1: تثبيت وتكوين Aspose.OCR

إضافة حزمة NuGet والمرجع Aspose.OCR:

using Aspose.OCR;

الخطوة 2: إضافة ملفات PDF المسح الضوئي الخاصة بك

قم بإنشاء كائن OcrInput لإدخال PDF وإضافة ملفات PDF التي تم فحصها.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

الخطوة الثالثة: تعيين إعدادات التعرف

قم بتعيين اللغة وغيرها من إعدادات التعرف لتناسب مستنداتك.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

الخطوة 4: تشغيل عملية الاعتراف

التعرف على النص من ملفات PDF التي تم فحصها:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

الخطوة 5: حفظ أو تصدير النص المعترف به

تصدير النص المعترف به إلى الملفات، أو تحويل النتائج إلى PDFs قابلة للبحث.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

الخطوة 6: إضافة خطأ التعامل

تحريك التعرف في كتلة محاولة / التقاط للحصول على قوة.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

الخطوة 7: تحسين ملفات PDF الكبيرة أو متعددة الصفحات

معالجة PDFs صفحة حسب الصفحة لملفات ضخمة
استخدم الفحص عالي الجودة للحصول على أفضل النتائج
عملية التردد بالتوازي لمجموعات كبيرة

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

الخطوة الثامنة: نموذج العمل الكامل

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

استخدام الحالات والتطبيقات

أرشيف الرقمي

تحويل المكتبات بأكملها من المستندات المسجلة إلى ملفات قابلة للبحث والمؤشر من أجل الامتثال وإدارة المعرفة.

الإدارة القانونية والعقدية

استخراج شروط العقد أو الشروط من ملفات PDF للمراجعة أو الأتمتة أو التوقيع الرقمي.

البحث عن مستندات Streamlined

إمكانية البحث السريع بالكامل في الأرشيفات أو قواعد المعرفة أو ملفات الحالة.

التحديات والحلول المشتركة

التحدي الأول: جودة منخفضة أو الفحص المنخفض

الحل: استخدم الفلاتر التي يتم معالجتها مسبقاً ومسح عالي الجودة حيثما هو ممكن.

التحدي 2: PDFs متعددة اللغات

الحل: قم بتعيين اللغة في إعدادات التعرف أو العملية مع العديد من خيارات اللغة.

التحدي 3: ملفات PDF كبيرة جدا

الحلول: المعالجة في مجموعات أو حسب الصفحة، ومراقبة استخدام الذاكرة.

اعتبارات الأداء

استخدام DPI الأمثل (300+) للبيانات الماسح الضوئية
عملية Batch للحصول على أفضل نطاق
توفير كائنات OCR ومخازن الملفات المغلقة

أفضل الممارسات

التحقق من إنتاج OCR قبل مزيد من الأتمتة
إعداد وتخزين ملفات PDF الأصلية
استخدم SaveFormat الصحيح لتدفق عملك
تحديث Aspose.OCR بانتظام لمميزات PDF الجديدة

سيناريوهات متقدمة

السيناريو 1: استخراج صفحات محددة فقط من PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

السيناريو 2: التصدير إلى تنسيقات متعددة

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

استنتاجات

يتيح لك Aspose.OCR for .NET تحويل PDFs المسح الضوئي إلى نص قابل للتنفيذ والملفات القابلة للبحث – القضاء على الإدخال اليدوي وجعل المعلومات متاحة لجميع مؤسستك.

لمزيد من التفاصيل والأمثلة، انظر أرشيف الوسم : .NET API Reference .