Làm thế nào để lấy dữ liệu bảng từ hình ảnh với Aspose.OCR

Làm thế nào để lấy dữ liệu bảng từ hình ảnh với Aspose.OCR

Với Aspose.OCR Table to Text for .NET, bạn có thể tự động khai thác dữ liệu bảng có cấu trúc từ hình ảnh – tiết kiệm thời gian, giảm lỗi, và cho phép tích hợp không ngừng với cơ sở data, Excel, hoặc công cụ báo cáo.

Vấn đề thế giới thực

Các doanh nghiệp thường nhận được bảng trong các hóa đơn, báo cáo, hoặc các biểu mẫu như hình ảnh hoặc quét. thủ công tái nhập dữ liệu này vào bảng điều khiển hoặc nền tảng phân tích là không hiệu quả và có lỗi, đặc biệt là cho khối lượng lớn hoặc bảng phức tạp.

Giải pháp Overview

Aspose.OCR Table to Text for .NET tự động nhận dạng bảng và thu thập dữ liệu từ hình ảnh, xác định chính xác cấu trúc tế bào và nội dung. Điều này cho phép bạn chuyển đổi các bảng được quét hoặc chụp thành định dạng có thể tìm kiếm và chỉnh sửa với mã tối thiểu.

Nguyên tắc

Trước khi bắt đầu, bạn sẽ cần:

  • Visual Studio 2019 hoặc hơn
  • .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
  • Aspose.OCR cho .NET từ NuGet
  • C# kiến thức cơ bản
PM> Install-Package Aspose.OCR

Chế độ thực hiện từng bước

Bước 1: Cài đặt và cấu hình Aspose.OCR

Thêm gói Aspose.OCR và bao gồm các không gian tên cần thiết:

using Aspose.OCR;

Bước 2: Chuẩn bị hình ảnh bảng

Thêm một hoặc nhiều hình ảnh bảng vào đầu vào của bạn. để lấy hàng, sử dụng nhiều tệp.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Bước 3: Thiết lập cài đặt nhận dạng bảng

Khả năng chế độ phát hiện bảng để đảm bảo cấu trúc được xác định chính xác.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Bước 4: Thực hiện quá trình nhận dạng bảng

Nhận ra các bảng với các cài đặt được cấu hình:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Bước 5: Xuất khẩu và sử dụng dữ liệu bảng

Lưu hoặc xử lý dữ liệu bảng được công nhận. bạn có thể xuất sang văn bản, Excel, JSON, hoặc các định dạng khác.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Bước 6: Thêm lỗi xử lý

Thêm xử lý ngoại lệ để xây dựng các giải pháp vững chắc.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Bước 7: Tối ưu hóa cho bảng phức tạp

  • Sử dụng quét / hình ảnh độ phân giải cao để phát hiện chính xác cấu trúc
  • Kiểm tra với các bố trí bảng khác nhau (mích hợp các tế bào, nhiều dòng đầu, biên giới)
  • Tune thiết lập nhận dạng nếu cần thiết
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Bước 8: Hoàn thành ví dụ làm việc

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Sử dụng trường hợp và ứng dụng

Báo cáo tài chính và hóa đơn

Thu thập bảng giao dịch từ hình ảnh vào Excel hoặc hệ thống cơ sở dữ liệu tự động.

nghiên cứu và phân tích

Số hóa các bảng từ các ấn phẩm quét hoặc biểu mẫu khảo sát để phân tích dữ liệu.

Chuyển đổi dữ liệu tự động

Di chuyển tài liệu di sản hoặc hồ sơ giấy quét vào các định dạng cấu trúc hiện đại.

Những thách thức và giải pháp chung

Thách thức 1: Blurry hoặc Hình ảnh bảng phức tạp

** Giải pháp:** Sử dụng hình ảnh rõ ràng hơn hoặc thử nghiệm với quá trình xử lý để cải thiện nhận dạng cấu trúc.

Lời bài hát: Non-Standard Table Layouts

  • Giải pháp: * Kiểm tra và điều chỉnh cài đặt cho các bố trí phức tạp hoặc bảng không giới hạn.

Thách thức 3: Big Batches hoặc Mixed Image Types

** Giải pháp:** Sử dụng bộ xử lý và quét thư mục để tự động khai thác từ nhiều tệp.

Các tính toán hiệu suất

  • Sử dụng các hình ảnh rõ ràng, cao
  • Process Batch cho hiệu quả
  • Thiết lập các đối tượng OCR sau khi sử dụng

Thực hành tốt nhất

  • Luôn xác nhận dữ liệu bảng xuất khẩu trước khi xử lý thêm
  • Hình ảnh trước xử lý để phát hiện cấu trúc tối ưu
  • Bảo mật và sao lưu quét gốc / hình ảnh
  • Sử dụng định dạng xuất khẩu phù hợp cho dòng công việc của bạn (CSV, XLSX, JSON)

kịch bản tiên tiến

Kịch bản 1: Mixed-Language Table Extraction

settings.Language = Language.Chinese;

Kịch bản 2: Kết hợp bảng và Text Extraction

settings.DetectAreasMode = DetectAreasMode.COMBINE;

Kết luận

Aspose.OCR Table to Text for .NET chuyển đổi các bảng hình ảnh thành dữ liệu có cấu trúc, có thể chỉnh sửa - không cần nhập thủ công. tăng tốc báo cáo tài chính, phân tích, và lưu trữ kỹ thuật số với chính xác, tự động khai thác bảng.

Để biết thêm ví dụ và chi tiết kỹ thuật, hãy truy cập Aspose.OCR cho .NET API Reference .

 Tiếng Việt