چگونگی اتوماسیون استخراج داده ها از فایل های PDF چند صفحه ای با Aspose.OCR
PDF های چند صفحه ای از اسکنرها، آرشیوها و یا جریان های کار شرکت ها اغلب مقدار زیادی از متن و جدول های غیر قابل جستجو را نگه می دارند. استخراج دستی آهسته و غیر مقیاس پذیر است. Aspose.OCR برای .NET اتوماسیون استخوان متن، جدول ها و ساختار از طولانی، پیچیده PDF ها با کد حداقل.
مشکل دنیای واقعی
آرشیو های حقوقی، مالی و علمی به طور منظم با فایل های اسکن چند صفحه ای که حاوی صدها صفحه است، برخورد می کنند.
بررسی راه حل
Aspose.OCR برای .NET می تواند فرآیند بسته بندی و استخراج متن / جدول از هر صفحه در یک PDF چند صفحه ای. شما می توانید صف های صفحه، فرمت های صادرات و اتوماتیک ادغام با برنامه های کسب و کار و یا اسناد دیجیتال را مشخص کنید.
پیش شرط
- Visual Studio 2019 یا بالاتر
- .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
- Aspose.OCR برای .NET از NuGet
- مهارت های برنامه نویسی C#
PM> Install-Package Aspose.OCR
پیاده سازی گام به گام
مرحله 1: نصب و تنظیم Aspose.OCR
using Aspose.OCR;
مرحله 2: اضافه کردن فایل های PDF چند صفحه ای
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14
مرحله 3: تنظیم تنظیمات شناسایی و رتبه بندی صفحات
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
مرحله چهارم: متن و جدول را از هر صفحه خارج کنید.
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
مرحله 5: نتایج صادرات برای هر صفحه
int page = 1;
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.txt", SaveFormat.Text);
result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
result.Save($"output_page_{page}.json", SaveFormat.Json);
page++;
}
مرحله ششم: اشتباهات را حل کنید و اطلاعات را تأیید کنید
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
مرحله 7: بهینه سازی برای فایل های بزرگ و شغل های بسته بندی
- پردازش PDF ها در پوشه ها با دایرکتوری
- استفاده از پردازش صفحه انتخابی برای سرعت
- کنترل حافظه / استفاده از CPU
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
مرحله هشتم: نمونه کامل
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf");
input.Add("report.pdf", 5, 10);
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
int page = 1;
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.txt", SaveFormat.Text);
result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
result.Save($"output_page_{page}.json", SaveFormat.Json);
page++;
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
استفاده از موارد و برنامه ها
آرشیو قانونی و انطباق
استخراج محتوای کامل از قراردادهای، پرونده های دادگاه، و یا سوابق دولتی برای جستجو و انطباق.
آرشیو های علمی و تحقیقاتی
دیجیتالی سازی و تقسیم مجلات، پایان نامه ها یا جدول های داده برای تجزیه و تحلیل یا یادگیری الکترونیکی.
جریان های مالی و حسابرسی
استخراج اتوماتیک از آرشیو های بیانیه های بزرگ، گزارش ها و پاراگراف.
چالش ها و راه حل های مشترک
چالش اول: طرح های صفحه ای نامناسب
** راه حل:** از تشخیص اتومبیل استفاده کنید یا حالت های مختلفی را در هر محدوده صفحه تنظیم کنید.
چالش دوم: PDF های بسیار بزرگ
** راه حل: ** پردازش در بسته ها؛ فایل های تقسیم شده برای عملکرد حافظه بهتر.
چالش 3: محتوای مخلوط (نص، جدول، تصاویر)
** راه حل: ** خروجی های معتبر و پس از فرآیند؛ حالت تشخیص تن.
بررسی عملکرد
- PDF های بزرگ نیاز به حافظه و CPU بیشتری دارند.
- بوتاکس کارهای خارج از ساعت برای بهترین عملکرد
- تایید نمونه های خروجی قبل از ادغام
بهترین شیوهها
- استفاده از کنوانسیون های نامگذاری برای ردیابی آسان
- تقسیم فایل های چند صفحه ای اگر فایل ها بسیار بزرگ هستند
- مدارک منبع و خروجی را حفظ کنید
- تأیید و بررسی نتایج در جریان های کار انتقادی
سناریوهای پیشرفته
سناریو 1: صادرات به PDF جستجوگر در هر صفحه
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
page++;
}
سناریو 2: ادغام با پایگاه داده یا ابر
foreach (RecognitionResult result in results)
{
string json = File.ReadAllText($"output_page_{page}.json");
// Upload json or send to a cloud endpoint
}
نتیجه گیری
Aspose.OCR برای .NET امکان استخراج متن قوی و قابل مقیاس و داده های ساختاری از PDF های چند صفحه ای را فراهم می کند – صرفه جویی در ساعت کار دستی و بهبود اتوماسیون جریان کار.
مشاهده بیشتر PDF و نمونه های پردازش بسته در Aspose.OCR برای .NET API مرجع .