Làm thế nào để thu thập dữ liệu cấu trúc từ bảng và hình thức trong hình ảnh

Làm thế nào để thu thập dữ liệu cấu trúc từ bảng và hình thức trong hình ảnh

Tiết xuất dữ liệu từ các bảng được quét hoặc các biểu mẫu được điền là điều cần thiết cho việc tự động hóa kinh doanh, báo cáo và tuân thủ. ASPOSE.OCR Table to Text for .NET làm nhanh quá trình này, xác định chính xác cấu trúc tế bào và trường và xuất sang định dạng có thể chỉnh sửa.

Vấn đề thế giới thực

Các doanh nghiệp thường nhận được hóa đơn, báo cáo, hoặc hình thức như hình ảnh hoặc quét. nhập thủ công của dữ liệu bảng hoặc các trường biểu mẫu là chậm, sai lầm, và đắt tiền theo quy mô.

Giải pháp Overview

Với Table to Text for .NET, bạn có thể thu thập dữ liệu có cấu trúc – bao gồm hàng, cột và giá trị trường – trực tiếp từ hình ảnh. kết quả được xuất vào Excel, JSON, hoặc tích hợp với cơ sở data và nền tảng tự động hóa.

Nguyên tắc

  • Visual Studio 2019 hoặc hơn
  • .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
  • Aspose.OCR cho .NET từ NuGet
  • Kỹ năng C# cơ bản
PM> Install-Package Aspose.OCR

Chế độ thực hiện từng bước

Bước 1: Cài đặt và cấu hình Aspose.OCR

using Aspose.OCR;

Bước 2: Chuẩn bị bảng hoặc hình ảnh

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Bước 3: Thiết lập cài đặt nhận dạng cho bảng / biểu mẫu

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Bước 4: Thu thập dữ liệu bảng hoặc biểu mẫu

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Bước 5: Xuất khẩu cấu trúc

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Bước 6: Xử lý lỗi và xác nhận kết quả

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Bước 7: Tối ưu hóa các biến thể bảng / hình thức

  • Kiểm tra trên mẫu với các biên giới khác nhau, phông chữ, hoặc vị trí trường
  • Tune Preprocessing Cài đặt cho phát hiện tốt nhất

Bước 8: Tự động Batch Extraction

Thực hiện tất cả các hình ảnh liên quan trong một thư mục:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Bước 9: Một ví dụ đầy đủ

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Sử dụng trường hợp và ứng dụng

Tài khoản và báo cáo tự động hóa

Thu thập dữ liệu tài chính cho kế toán hoặc phân tích.

Báo cáo và biểu mẫu đăng ký

Cung cấp các phản ứng cấu trúc cho các hệ thống CRM, ERP hoặc BI.

tuân thủ và kiểm toán

Tự động thu thập và xác thực dữ liệu từ các biểu mẫu hoặc bảng được gửi.

Những thách thức và giải pháp chung

Thách thức 1: Các biên giới bàn không thường xuyên hoặc bố trí

** Giải pháp:** Sử dụng quá trình xử lý và gạch mẫu để cải thiện việc phát hiện.

Thách thức 2: Nội dung hỗn hợp (Thông tin và bảng)

** Giải pháp:** chạy với AUTO hoặc tách biệt theo kiểu hình ảnh cho kết quả tốt nhất.

Thách thức 3: Các hình thức phức tạp với nhiều lĩnh vực

Các giải pháp: Kiểm tra và xác nhận tweak cho các hình dạng độ dày cao.

Các tính toán hiệu suất

  • Nhận thức bàn là CPU-intensive hơn; giám sát công việc bát
  • Chứng nhận kết quả cho các dòng công việc quan trọng
  • Batch xuất khẩu để tích hợp với các công cụ khác

Thực hành tốt nhất

  • Chứng nhận dữ liệu cấu trúc trên mẫu trước khi quy mô
  • Bảo mật và lưu trữ cả hình ảnh nguồn và kết quả thu được
  • Cập nhật Aspose.OCR thường xuyên để cải thiện độ chính xác
  • Cài đặt Tune cho các bố trí tài liệu mới

kịch bản tiên tiến

Kịch bản 1: xuất vào cơ sở dữ liệu hoặc công cụ BI

// Use JSON or Excel export for integration with data pipelines

Kịch bản 2: Real-Time Extraction trong Web Apps

// Integrate extraction logic into ASP.NET or workflow API

Kết luận

ASPOSE.OCR Table to Text for .NET cho phép bạn tự động lấy dữ liệu có cấu trúc từ hình ảnh và biểu mẫu, hỗ trợ mọi thứ từ tự trị hóa kinh doanh đến tuân thủ và phân tích.

Đối với các tính năng chiết xuất bàn tiên tiến, hãy truy cập Aspose.OCR cho .NET API Reference .

 Tiếng Việt