چگونگی اتوماسیون استخراج داده ها از فایل های PDF چند صفحه ای با Aspose.OCR

چگونگی اتوماسیون استخراج داده ها از فایل های PDF چند صفحه ای با Aspose.OCR

PDF های چند صفحه ای از اسکنرها، آرشیوها و یا جریان های کار شرکت ها اغلب مقدار زیادی از متن و جدول های غیر قابل جستجو را نگه می دارند. استخراج دستی آهسته و غیر مقیاس پذیر است. Aspose.OCR برای .NET اتوماسیون استخوان متن، جدول ها و ساختار از طولانی، پیچیده PDF ها با کد حداقل.

مشکل دنیای واقعی

آرشیو های حقوقی، مالی و علمی به طور منظم با فایل های اسکن چند صفحه ای که حاوی صدها صفحه است، برخورد می کنند.

بررسی راه حل

Aspose.OCR برای .NET می تواند فرآیند بسته بندی و استخراج متن / جدول از هر صفحه در یک PDF چند صفحه ای. شما می توانید صف های صفحه، فرمت های صادرات و اتوماتیک ادغام با برنامه های کسب و کار و یا اسناد دیجیتال را مشخص کنید.

پیش شرط

  • Visual Studio 2019 یا بالاتر
  • .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
  • Aspose.OCR برای .NET از NuGet
  • مهارت های برنامه نویسی C#
PM> Install-Package Aspose.OCR

پیاده سازی گام به گام

مرحله 1: نصب و تنظیم Aspose.OCR

using Aspose.OCR;

مرحله 2: اضافه کردن فایل های PDF چند صفحه ای

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14

مرحله 3: تنظیم تنظیمات شناسایی و رتبه بندی صفحات

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;

مرحله چهارم: متن و جدول را از هر صفحه خارج کنید.

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

مرحله 5: نتایج صادرات برای هر صفحه

int page = 1;
foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.txt", SaveFormat.Text);
    result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
    result.Save($"output_page_{page}.json", SaveFormat.Json);
    page++;
}

مرحله ششم: اشتباهات را حل کنید و اطلاعات را تأیید کنید

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

مرحله 7: بهینه سازی برای فایل های بزرگ و شغل های بسته بندی

  • پردازش PDF ها در پوشه ها با دایرکتوری
  • استفاده از پردازش صفحه انتخابی برای سرعت
  • کنترل حافظه / استفاده از CPU
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

مرحله هشتم: نمونه کامل

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive.pdf");
            input.Add("report.pdf", 5, 10);

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            int page = 1;
            foreach (RecognitionResult result in results)
            {
                result.Save($"output_page_{page}.txt", SaveFormat.Text);
                result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
                result.Save($"output_page_{page}.json", SaveFormat.Json);
                page++;
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

استفاده از موارد و برنامه ها

آرشیو قانونی و انطباق

استخراج محتوای کامل از قراردادهای، پرونده های دادگاه، و یا سوابق دولتی برای جستجو و انطباق.

آرشیو های علمی و تحقیقاتی

دیجیتالی سازی و تقسیم مجلات، پایان نامه ها یا جدول های داده برای تجزیه و تحلیل یا یادگیری الکترونیکی.

جریان های مالی و حسابرسی

استخراج اتوماتیک از آرشیو های بیانیه های بزرگ، گزارش ها و پاراگراف.

چالش ها و راه حل های مشترک

چالش اول: طرح های صفحه ای نامناسب

** راه حل:** از تشخیص اتومبیل استفاده کنید یا حالت های مختلفی را در هر محدوده صفحه تنظیم کنید.

چالش دوم: PDF های بسیار بزرگ

** راه حل: ** پردازش در بسته ها؛ فایل های تقسیم شده برای عملکرد حافظه بهتر.

چالش 3: محتوای مخلوط (نص، جدول، تصاویر)

** راه حل: ** خروجی های معتبر و پس از فرآیند؛ حالت تشخیص تن.

بررسی عملکرد

  • PDF های بزرگ نیاز به حافظه و CPU بیشتری دارند.
  • بوتاکس کارهای خارج از ساعت برای بهترین عملکرد
  • تایید نمونه های خروجی قبل از ادغام

بهترین شیوه‌ها

  • استفاده از کنوانسیون های نامگذاری برای ردیابی آسان
  • تقسیم فایل های چند صفحه ای اگر فایل ها بسیار بزرگ هستند
  • مدارک منبع و خروجی را حفظ کنید
  • تأیید و بررسی نتایج در جریان های کار انتقادی

سناریوهای پیشرفته

سناریو 1: صادرات به PDF جستجوگر در هر صفحه

foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
    page++;
}

سناریو 2: ادغام با پایگاه داده یا ابر

foreach (RecognitionResult result in results)
{
    string json = File.ReadAllText($"output_page_{page}.json");
    // Upload json or send to a cloud endpoint
}

نتیجه گیری

Aspose.OCR برای .NET امکان استخراج متن قوی و قابل مقیاس و داده های ساختاری از PDF های چند صفحه ای را فراهم می کند – صرفه جویی در ساعت کار دستی و بهبود اتوماسیون جریان کار.

مشاهده بیشتر PDF و نمونه های پردازش بسته در Aspose.OCR برای .NET API مرجع .

 فارسی