Làm thế nào để thu thập các bảng và dữ liệu bảng từ hình ảnh với Aspose.OCR

Làm thế nào để thu thập các bảng và dữ liệu bảng từ hình ảnh với Aspose.OCR

Thu thập các bảng từ hình ảnh, biểu mẫu hoặc báo cáo được quét là khó khăn – bản xóa bằng tay là chậm và dễ bị lỗi. ASPOSE.OCR Table to Text for .NET tự động khai thác và cấu trúc các dữ liệu bảng của ảnh và ảnh.

Vấn đề thế giới thực

Báo cáo tài chính, các biểu mẫu khảo sát và kết quả khoa học thường bị mắc kẹt trong các bảng hoặc hình ảnh được quét.Hành động tái tạo dữ liệu này lãng phí giờ và rủi ro đưa ra sai lầm.

Giải pháp Overview

Aspose.OCR cho .NET có thể xác định, lấy và chuyển đổi chính xác các bảng từ hình ảnh hoặc PDF được quét sang định dạng dễ đọc bằng máy - hoàn hảo cho Excel, báo cáo, hoặc tự động hóa dòng công việc.

Nguyên tắc

  • Visual Studio 2019 hoặc hơn
  • .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
  • Aspose.OCR cho .NET từ NuGet
  • C# kiến thức cơ bản
PM> Install-Package Aspose.OCR

Chế độ thực hiện từng bước

Bước 1: Cài đặt và cấu hình Aspose.OCR

using Aspose.OCR;

Bước 2: quét hoặc chụp ảnh chứa bảng

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Bước 3: Thiết lập cài đặt nhận dạng bảng

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Bước 4: Thực hiện quá trình khai thác bàn

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Bước 5: Dữ liệu bảng xuất khẩu

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Bước 6: Thêm lỗi xử lý và xác thực

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Bước 7: Tối ưu hóa cho các bảng phức tạp, xoay hoặc nhiều trang

  • Preprocess hình ảnh để deskew hoặc crop
  • Sử dụng quét độ phân giải cao hoặc ảnh
  • Đối với nhiều trang PDF, thêm mỗi trang như một bản nhập riêng biệt
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Bước 8: Chọn ví dụ đầy đủ

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Sử dụng trường hợp và ứng dụng

Báo cáo tài chính và khoa học

Thu thập bảng từ các báo cáo tài chính, kết quả phòng thí nghiệm, hoặc các tài liệu nghiên cứu để phân tích ngay lập tức trong Excel.

Nghiên cứu và hình thức xử lý

Tính số hóa các bảng từ các biểu mẫu được quét, danh sách kiểm tra hoặc hồ sơ đánh giá.

Workflow tự động hóa

Cung cấp dữ liệu bảng có cấu trúc trực tiếp vào các ứng dụng kinh doanh, công cụ BI hoặc cơ sở data của bạn.

Những thách thức và giải pháp chung

Thách thức 1: Chất lượng kém hoặc bảng phức tạp

** Giải pháp:** Sử dụng hình ảnh với độ sáng cao và kiểm tra trên các bộ mẫu.

Lời bài hát: Challenge 2: Rotated or Skewed Tables

  • Giải pháp: * Khóa hình ảnh trước khi xử lý; sử dụng DetectAreasMode.TABLE.

Thách thức 3: Báo cáo đa trang

** Giải pháp:** Thêm mỗi trang như một bản ghi riêng cho việc xử lý bộ.

Các tính toán hiệu suất

  • Batch quá trình cho tốc độ
  • Sử dụng quét chất lượng cao / ảnh
  • Thiết lập các đối tượng OCR sau các cuộc chạy đua lớn

Thực hành tốt nhất

  • Chứng nhận sản xuất trước khi tích hợp
  • Tune tab nhận dạng cài đặt nếu cần thiết
  • Cung cấp dữ liệu gốc và kỹ thuật số
  • Kiểm tra bằng mẫu thực trước khi triển khai

kịch bản tiên tiến

Kịch bản 1: Multi-Language Table Extraction

settings.Language = Language.German;

Kịch bản 2: Export to JSON for Data Pipelines

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Kết luận

Aspose.OCR Table to Text for .NET biến hình ảnh và quét thành dữ liệu bảng có thể thực hiện, có cấu trúc – sẵn sàng để phân tích, báo cáo và tự động hóa.

Xem thêm mẫu mã nhận dạng bảng trong Aspose.OCR cho .NET API Reference .

 Tiếng Việt