كيفية تحويل PDFs الماسح الضوئي إلى مستندات قابلة للبحث

يتم التقاط العديد من الوثائق الثمينة في ملفات PDF المسح الضوئي ، مما يجعلها غير قابلة للبحث وغير متاحة لمحركات البحث أو أدوات الإنتاجية PDF إلى النص لـ .NET يسمح لك بتحويل هذه الملفات الثابتة إلى مستندات قابلة للبحث بالكامل ويمكن تحريرها مع الحد الأدنى من الرمز.

مشكلة العالم الحقيقي

لا يمكن البحث أو تصنيف أو نسخ عقود PDF المسح الضوئي أو الكتب أو الأرشيفات ما لم يتم استخراج النص.التصنيع اليدوي بطيئ ومكلف ومخاطر إدخال الأخطاء - وخاصة بالنسبة للملفات الكبيرة أو متعددة الصفحات.

نظرة عامة على الحل

يمكن لـ Aspose.OCR for .NET تجميع معالجة ملفات PDF المسح الضوئي، واستخراج وتصدير النص في مجموعة متنوعة من التنسيقات – مما يجعل المستندات قابلة للبحث، ويمكن تصنيفها، ومستعدة لتدفقات العمل الرقمية أو الامتثال.

المتطلبات

Visual Studio 2019 أو أحدث
.NET 6.0 أو أعلى (أو .NET Framework 4.6.2+)
Aspose.OCR لـ .NET من NuGet
الخبرة في البرمجة C

PM> Install-Package Aspose.OCR

تنفيذ خطوة بخطوة

الخطوة 1: تثبيت وتكوين Aspose.OCR

using Aspose.OCR;

الخطوة 2: إضافة ملفات PDF المسح

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");

الخطوة 3: قم بتعيين إعدادات التعرف على PDFs

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts

الخطوة 4: تشغيل OCR على PDFs المسح الضوئي

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

الخطوة 5: تصدير إلى تنسيقات قابلة للبحث

foreach (RecognitionResult result in results)
{
    result.Save("archive_searchable.pdf", SaveFormat.Pdf);   // Searchable PDF
    result.Save("archive_text.txt", SaveFormat.Text);         // Plain text
    result.Save("archive_word.docx", SaveFormat.Docx);       // Word document
}

الخطوة 6: إضافة التعامل مع الأخطاء والتصديق

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

الخطوة 7: تحسين العديد من الصفحات والملفات PDF الكبيرة

بالنسبة لملفات PDF التي تحتوي على العديد من الصفحات، أضف الملف وإعداد مستويات الصفحة حسب الحاجة
إعدادات Tune لترتيب المستند واللغة
بتش معالجة جميع الملفات في دليل واحد

foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

الخطوة الثامنة: نموذج كامل

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive1.pdf");
            input.Add("books.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("archive_searchable.pdf", SaveFormat.Pdf);
                result.Save("archive_text.txt", SaveFormat.Text);
                result.Save("archive_word.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

استخدام الحالات والتطبيقات

البحث الأرشيف الرقمي

تحويل الأرشيفات الثابتة والمسحوبة إلى موارد قابلة للبحث ومصدر للمكتبات أو شركات القانون أو الشركات.

الرقمنة التنظيمية والامتثال

استخراج النص من وثائق الامتثال التي تم فحصها للتصديق والتدقيق.

الأكاديمية و نشر الكتب

الرقمنة الكتب المكتوبة والوثائق البحثية للوصول الرقمي، والتعلم الإلكتروني، أو التوزيع.

التحديات والحلول المشتركة

التحدي الأول: جودة منخفضة أو الفحص المنخفض

الحلول: العملية المسبقة للحصول على وضوح؛ استخدم وضع AUTO للتعامل مع ترتيب قوي.

التحدي 2: PDFs متعددة اللغات

الحل: تعديل إعدادات اللغة واختبارها على ملفات العينة.

التحدي الثالث: ملفات كبيرة جدًا أو متقاطعة

الحل: العملية في أجزاء قابلة للإدارة ومراقبة استخدام الذاكرة.

اعتبارات الأداء

عملية التردد للحصول على أقصى قدر من الكفاءة
استخدم مستندات PDF ذات جودة عالية
تتوفر أدوات OCR بعد الاستخدام

أفضل الممارسات

التحقق من النتيجة ضد PDFs المصدر قبل التكامل
تنظيم PDFs حسب الموضوع أو القسم لسهولة الإدارة
احفظ جميع الملفات المسح و المعالجة
استخدم أحدث إصدار من Aspose.OCR للحصول على أفضل دقة

سيناريوهات متقدمة

السيناريو 1: تصدير إلى JSON للأنابيب البيانات

foreach (RecognitionResult result in results)
{
    result.Save("archive_data.json", SaveFormat.Json);
}

السيناريو 2: صفحة اختيارية OCR

input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only

استنتاجات

Aspose.OCR مسح PDF إلى النص ل .NET يسمح لك بسرعة تحويل ملفات PDF المسح إلى مستندات قابلة للبحث والتحرير لتدفقات العمل الحديثة.

العثور على المزيد من الرمز المتقدم والنصائح في أرشيف الوسم : .NET API Reference .