Làm thế nào để tự động khai thác dữ liệu từ nhiều trang PDF với Aspose.OCR

Làm thế nào để tự động khai thác dữ liệu từ nhiều trang PDF với Aspose.OCR

PDF nhiều trang từ quét, lưu trữ, hoặc dòng công việc của công ty thường giữ một số lượng lớn các văn bản và bảng không thể tìm kiếm. chiết xuất bằng tay là chậm và không có quy mô. Aspose.OCR cho .NET tự động thu thập bài viết, bảng, và cấu trúc từ dài, phức tạp PDF với mã tối thiểu.

Vấn đề thế giới thực

Tài liệu pháp lý, tài chính và học thuật thường xuyên xử lý với nhiều trang PDF quét có chứa hàng trăm trang. văn bản thủ công và thu thập dữ liệu là sai lầm và công việc chuyên sâu.

Giải pháp Overview

Aspose.OCR cho .NET có thể kết hợp các quy trình và thu thập văn bản / bảng từ mỗi trang trong một PDF đa trang. Bạn có khả năng xác định hàng trang, định dạng xuất khẩu, và tích hợp tự động với các ứng dụng kinh doanh hoặc tài liệu kỹ thuật số.

Nguyên tắc

  • Visual Studio 2019 hoặc hơn
  • .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
  • Aspose.OCR cho .NET từ NuGet
  • Kỹ năng lập trình C#
PM> Install-Package Aspose.OCR

Chế độ thực hiện từng bước

Bước 1: Cài đặt và cấu hình Aspose.OCR

using Aspose.OCR;

Bước 2: Thêm tệp PDF đa trang

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14

Bước 3: Thiết lập cài đặt nhận dạng và xếp hạng trang

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;

Bước 4: Thu thập văn bản và bảng từ mỗi trang

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Bước 5: Kết quả xuất khẩu cho mỗi trang

int page = 1;
foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.txt", SaveFormat.Text);
    result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
    result.Save($"output_page_{page}.json", SaveFormat.Json);
    page++;
}

Bước 6: Xử lý lỗi và xác thực dữ liệu

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Bước 7: Tối ưu hóa cho các tập tin lớn và công việc nhóm

  • Xử lý PDF trong thư mục theo danh mục
  • Sử dụng xử lý trang chọn lọc cho tốc độ
  • Sử dụng bộ nhớ/CPU
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Bước 8: Chọn ví dụ đầy đủ

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive.pdf");
            input.Add("report.pdf", 5, 10);

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            int page = 1;
            foreach (RecognitionResult result in results)
            {
                result.Save($"output_page_{page}.txt", SaveFormat.Text);
                result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
                result.Save($"output_page_{page}.json", SaveFormat.Json);
                page++;
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Sử dụng trường hợp và ứng dụng

Luật và tuân thủ lưu trữ

Thu thập nội dung đầy đủ của các hợp đồng, hồ sơ tòa án, hoặc các bản ghi chính phủ để tìm kiếm và tuân thủ.

Tài liệu học thuật và nghiên cứu

Số hóa và chia các tạp chí, luận án, hoặc bảng dữ liệu cho phân tích hoặc e-learning.

Các dòng công việc tài chính và kiểm toán

Tự động rút ra từ các tập tin tuyên bố lớn, báo cáo, và bảng điều khiển.

Những thách thức và giải pháp chung

Thách thức 1: Thiết kế trang không liên tục

** Giải pháp:** Sử dụng phát hiện AUTO hoặc thiết lập chế độ khác nhau theo phạm vi trang.

Thách thức 2: PDFs rất lớn

  • Giải pháp: * xử lý trong các gói; chia tệp cho hiệu suất bộ nhớ tốt hơn.

Thách thức 3: Nội dung hỗn hợp (tiếng, bảng, hình ảnh)

** Giải pháp:** Validate và post-process outputs; tune detection mode.

Các tính toán hiệu suất

  • PDF lớn đòi hỏi thêm bộ nhớ/CPU
  • Batch công việc ngoài giờ cho hiệu suất tốt nhất
  • Chứng nhận mẫu sản xuất trước khi tích hợp

Thực hành tốt nhất

  • Sử dụng hợp đồng đặt tên để theo dõi dễ dàng
  • Chia nhiều trang PDF nếu các tập tin rất lớn
  • Bảo mật cả tài liệu nguồn và xuất khẩu
  • Chứng nhận và kiểm tra điểm kết quả trong các dòng công việc quan trọng

kịch bản tiên tiến

Kịch bản 1: Export to Searchable PDF Per Page

foreach (RecognitionResult result in results)
{
    result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
    page++;
}

Kịch bản 2: Kết hợp với cơ sở dữ liệu hoặc đám mây

foreach (RecognitionResult result in results)
{
    string json = File.ReadAllText($"output_page_{page}.json");
    // Upload json or send to a cloud endpoint
}

Kết luận

Aspose.OCR cho .NET cho phép khai thác văn bản và dữ liệu có cấu trúc mạnh mẽ, quy mô từ nhiều trang PDF – tiết kiệm thời gian nỗ lực thủ công và cải thiện tự động hóa dòng công việc.

Xem thêm các ví dụ về PDF và bộ xử lý trong Aspose.OCR cho .NET API Reference .

 Tiếng Việt