Làm thế nào để tự động nhập dữ liệu từ biểu mẫu với Aspose.OCR

Làm thế nào để tự động nhập dữ liệu từ biểu mẫu với Aspose.OCR

Tiết xuất thông tin từ các biểu mẫu giấy, câu hỏi, hoặc khảo sát là một chai nhập dữ liệu cổ điển. với Aspose.OCR cho .NET, bạn có thể số hóa dữ kiện hình thức từ quét hoặc ảnh, giảm sai lầm và biến các tài liệu không cấu trúc thành các cơ cấu, được chỉnh sửa.

Vấn đề thế giới thực

Dữ liệu nhập hình thức thủ công là chậm, tốn kém, và rất dễ mắc sai lầm – đặc biệt là trong các tổ chức lớn, nghiên cứu, hoặc logistics. viết tay, bố trí đa dạng và các loại lĩnh vực hỗn hợp làm cho tự động hóa khó khăn mà không có công cụ OCR mạnh mẽ.

Giải pháp Overview

Aspose.OCR cho .NET cung cấp các cài đặt nhận dạng linh hoạt để thu thập cả văn bản in và viết bằng tay từ các biểu mẫu, hộp kiểm quy trình và kết quả có cấu trúc xuất khẩu – lý tưởng cho doanh nghiệp, chăm sóc sức khỏe, nhân sự, giáo dục và nhiều hơn nữa.

Nguyên tắc

Trước khi bắt đầu, hãy chắc chắn rằng bạn có:

  • Visual Studio 2019 hoặc hơn
  • .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
  • Aspose.OCR cho .NET từ NuGet
  • Kinh nghiệm C#
PM> Install-Package Aspose.OCR

Chế độ thực hiện từng bước

Bước 1: Cài đặt và cấu hình Aspose.OCR

using Aspose.OCR;

Bước 2: Scan hoặc chụp hình dạng của bạn

Chuẩn bị hình ảnh biểu mẫu của bạn (JPEG, PNG, PDF, hoặc TIFF).

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("form1.png");
input.Add("form2.jpg");

Bước 3: Thiết lập cài đặt nhận dạng

Tùy chỉnh cài đặt cho ngôn ngữ, bố trí, và (nếu cần thiết) phát hiện viết tay.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // For complex or multi-field forms

Bước 4: Thực hiện quá trình khai thác dữ liệu

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Bước 5: xuất hoặc sử dụng dữ liệu kỹ thuật số

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Extracted text
    result.Save("form_data.txt", SaveFormat.Text); // Save as plain text
    result.Save("form_data.xlsx", SaveFormat.Xlsx); // Save as spreadsheet
}

Bước 6: Thêm lỗi xử lý

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Bước 7: Tối ưu hóa cho Layout và Handwriting

  • Đối với các trường bằng tay, sử dụng quét DPI cao hơn và điều chỉnh cài đặt ngôn ngữ
  • Sử dụng DetectAreasMode.TABLE cho biểu mẫu bảng, hoặc DOCUMENT cho các bố trí khác nhau
  • Kiểm tra với mẫu hình để tune thiết lập
// Example: Add all images from a directory
foreach (string file in Directory.GetFiles("./forms", "*.png"))
{
    input.Add(file);
}

Bước 8: Chọn ví dụ đầy đủ

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("form1.png");
            input.Add("form2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("form_data.txt", SaveFormat.Text);
                result.Save("form_data.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Sử dụng trường hợp và ứng dụng

Chăm sóc sức khỏe và HR

Thu thập và kỹ thuật số hóa dữ liệu biểu mẫu cho việc nhận bệnh nhân, ứng dụng làm việc, hoặc khảo sát.

nghiên cứu và giáo dục

Tự động xử lý câu hỏi và khảo sát để phân tích nhanh hơn.

Logistics và kinh doanh

Tính kỹ thuật số hóa ghi chú giao hàng, biểu mẫu kiểm tra, hoặc danh sách kiểm chứng khoán.

Những thách thức và giải pháp chung

Thách thức 1: Các lĩnh vực viết tay hoặc chất lượng thấp

** Giải pháp:** Sử dụng quét chất lượng cao và điều chỉnh cài đặt nhận dạng để viết tay.

Lời bài hát: Unregular Form Layouts

** Giải pháp:** Sử dụng chế độ DOCUMENT cho các bố trí phức tạp, và kiểm tra trên mẫu.

Thách thức 3: Batch Extraction

** Giải pháp:** Sử dụng bộ xử lý dựa trên thư mục cho các biểu mẫu khối lượng cao.

Các tính toán hiệu suất

  • Bộ xử lý Batch cho tốc độ và quy mô
  • Thiết lập các đối tượng OCR sau khi sử dụng
  • Chứng nhận sản xuất trước khi tích hợp

Thực hành tốt nhất

  • Kiểm tra dữ liệu kỹ thuật số cho độ chính xác trước khi tự động hóa
  • Cài đặt Tune cho mỗi loại mẫu biểu mẫu
  • Archive for kiểm toán
  • Cập nhật Aspose.OCR thường xuyên để cải thiện tính năng

kịch bản tiên tiến

Kịch bản 1: Tắt viết bằng tay từ các hình thức

settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
// Optionally, pre-filter for handwriting using image preprocessing

Kịch bản 2: Export to JSON for Database Import

foreach (RecognitionResult result in results)
{
    result.Save("form_data.json", SaveFormat.Json);
}

Kết luận

Aspose.OCR cho .NET tự động hình thành khai thác dữ liệu – loại bỏ nhập thủ công và tăng tốc các dòng công việc kinh doanh, nghiên cứu hoặc hành chính.

Xem các mẫu sử dụng và mã tiên tiến hơn tại Aspose.OCR cho .NET API Reference .

 Tiếng Việt