Làm thế nào để thu thập dữ liệu cấu trúc từ bảng và hình thức trong hình ảnh
Tiết xuất dữ liệu từ các bảng được quét hoặc các biểu mẫu được điền là điều cần thiết cho việc tự động hóa kinh doanh, báo cáo và tuân thủ. ASPOSE.OCR Table to Text for .NET làm nhanh quá trình này, xác định chính xác cấu trúc tế bào và trường và xuất sang định dạng có thể chỉnh sửa.
Vấn đề thế giới thực
Các doanh nghiệp thường nhận được hóa đơn, báo cáo, hoặc hình thức như hình ảnh hoặc quét. nhập thủ công của dữ liệu bảng hoặc các trường biểu mẫu là chậm, sai lầm, và đắt tiền theo quy mô.
Giải pháp Overview
Với Table to Text for .NET, bạn có thể thu thập dữ liệu có cấu trúc – bao gồm hàng, cột và giá trị trường – trực tiếp từ hình ảnh. kết quả được xuất vào Excel, JSON, hoặc tích hợp với cơ sở data và nền tảng tự động hóa.
Nguyên tắc
- Visual Studio 2019 hoặc hơn
- .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
- Aspose.OCR cho .NET từ NuGet
- Kỹ năng C# cơ bản
PM> Install-Package Aspose.OCR
Chế độ thực hiện từng bước
Bước 1: Cài đặt và cấu hình Aspose.OCR
using Aspose.OCR;
Bước 2: Chuẩn bị bảng hoặc hình ảnh
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Bước 3: Thiết lập cài đặt nhận dạng cho bảng / biểu mẫu
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Bước 4: Thu thập dữ liệu bảng hoặc biểu mẫu
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Bước 5: Xuất khẩu cấu trúc
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Bước 6: Xử lý lỗi và xác nhận kết quả
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Bước 7: Tối ưu hóa các biến thể bảng / hình thức
- Kiểm tra trên mẫu với các biên giới khác nhau, phông chữ, hoặc vị trí trường
- Tune Preprocessing Cài đặt cho phát hiện tốt nhất
Bước 8: Tự động Batch Extraction
Thực hiện tất cả các hình ảnh liên quan trong một thư mục:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Bước 9: Một ví dụ đầy đủ
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Sử dụng trường hợp và ứng dụng
Tài khoản và báo cáo tự động hóa
Thu thập dữ liệu tài chính cho kế toán hoặc phân tích.
Báo cáo và biểu mẫu đăng ký
Cung cấp các phản ứng cấu trúc cho các hệ thống CRM, ERP hoặc BI.
tuân thủ và kiểm toán
Tự động thu thập và xác thực dữ liệu từ các biểu mẫu hoặc bảng được gửi.
Những thách thức và giải pháp chung
Thách thức 1: Các biên giới bàn không thường xuyên hoặc bố trí
** Giải pháp:** Sử dụng quá trình xử lý và gạch mẫu để cải thiện việc phát hiện.
Thách thức 2: Nội dung hỗn hợp (Thông tin và bảng)
** Giải pháp:** chạy với AUTO hoặc tách biệt theo kiểu hình ảnh cho kết quả tốt nhất.
Thách thức 3: Các hình thức phức tạp với nhiều lĩnh vực
Các giải pháp: Kiểm tra và xác nhận tweak cho các hình dạng độ dày cao.
Các tính toán hiệu suất
- Nhận thức bàn là CPU-intensive hơn; giám sát công việc bát
- Chứng nhận kết quả cho các dòng công việc quan trọng
- Batch xuất khẩu để tích hợp với các công cụ khác
Thực hành tốt nhất
- Chứng nhận dữ liệu cấu trúc trên mẫu trước khi quy mô
- Bảo mật và lưu trữ cả hình ảnh nguồn và kết quả thu được
- Cập nhật Aspose.OCR thường xuyên để cải thiện độ chính xác
- Cài đặt Tune cho các bố trí tài liệu mới
kịch bản tiên tiến
Kịch bản 1: xuất vào cơ sở dữ liệu hoặc công cụ BI
// Use JSON or Excel export for integration with data pipelines
Kịch bản 2: Real-Time Extraction trong Web Apps
// Integrate extraction logic into ASP.NET or workflow API
Kết luận
ASPOSE.OCR Table to Text for .NET cho phép bạn tự động lấy dữ liệu có cấu trúc từ hình ảnh và biểu mẫu, hỗ trợ mọi thứ từ tự trị hóa kinh doanh đến tuân thủ và phân tích.
Đối với các tính năng chiết xuất bàn tiên tiến, hãy truy cập Aspose.OCR cho .NET API Reference .