Bagaimana untuk mengekstrak data terstruktur dari tabel dan bentuk dalam gambar

Bagaimana untuk mengekstrak data terstruktur dari tabel dan bentuk dalam gambar

Mengekstrak data dari tabel yang dipindai atau formulir yang diisi adalah penting untuk otomatisasi bisnis, laporan, dan pematuhan. Aspose.OCR Table to Text for .NET menyempurnakan proses ini, dengan tepat mendeteksi struktur sel dan medan dan mengekspor ke format yang dapat diedit.

Masalah dunia nyata

Bisnis sering menerima invois, laporan, atau formulir seperti gambar atau pemindaian. input manual dari data tabel atau pola bentuk adalah lambat, kelalaian, dan mahal pada skala.

Penyelesaian Overview

Dengan Table to Text untuk .NET, Anda dapat mengekstrak data terstruktur – termasuk baris, kolom, dan nilai lapangan – langsung dari gambar. hasil dapat diekspor ke Excel, JSON, atau terintegrasi dengan basis data dan platform otomatisasi.

Persyaratan

  • Visual Studio 2019 atau lebih baru
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET dari NuGet
  • Keterampilan dasar C#
PM> Install-Package Aspose.OCR

Implementasi langkah demi langkah

Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR

using Aspose.OCR;

Langkah 2: Siapkan tabel atau bentuk gambar

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Langkah 3: Mengkonfigurasi pengaturan pengenalan untuk tabel/bentuk

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Langkah 4: Mengekstrak tabel atau data formulir

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Langkah 5: Eksport Produksi Berstruktur

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Langkah 6: Mengatasi kesilapan dan validasi hasil

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 7: Mengoptimalkan Variasi Jadual/Bentuk

  • Ujian pada sampel dengan sempadan yang berbeda, fon, atau lokasi lapangan
  • Tune Preprocessing Settings untuk Deteksi Terbaik

Langkah 8: Automatic Batch Extraction

Memproses semua gambar yang relevan dalam folder:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Langkah 9 : Contoh lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Menggunakan kasus dan aplikasi

Invoice dan Reporting Automation

Mengekstrak data keuangan untuk akuntansi atau analisis.

Formulir Survei dan Pendaftaran

Pull respons terstruktur untuk sistem CRM, ERP, atau BI.

Kepatuhan dan Audit

Mengekstrak dan validasi data secara otomatis dari formulir atau tabel yang dikirim.

Tantangan dan Solusi Umum

Tantangan 1: Perbatasan meja yang tidak teratur atau layout

** Solusi:** Gunakan preprocessing dan sampel tuning untuk meningkatkan deteksi.

Tantangan 2: Kandungan Bercampur (Teks dan Jadual)

** Solusi:** Berjalan dengan AUTO atau terpisah menurut jenis gambar untuk hasil terbaik.

Tantangan 3: Bentuk-bentuk kompleks dengan banyak bidang

** Solusi:** Pengujian dan pengenalan tweak untuk bentuk kepadatan tinggi.

Pertimbangan kinerja

  • Pengenalan meja lebih intens dari CPU; pekerjaan batch monitor
  • Validasi output untuk aliran kerja kritis
  • Batch Export untuk Integrasi dengan Alat Lain

Praktik Terbaik

  • Validasi data terstruktur pada sampel sebelum skala
  • Menjaga dan mengarkibkan kedua-dua gambar sumber dan output yang diekstrak
  • Update Aspose.OCR secara teratur untuk peningkatan ketepatan
  • Pengaturan Tune untuk Layout Dokumen Baru

Skenario Lanjutan

Skenario 1: Eksport ke Database atau BI Tools

// Use JSON or Excel export for integration with data pipelines

Skenario 2: Ekstraksi waktu nyata dalam aplikasi web

// Integrate extraction logic into ASP.NET or workflow API

Kesimpulan

Aspose.OCR Table to Text for .NET memungkinkan Anda untuk mengautomatikkan ekstraksi data terstruktur dari gambar dan formulir, mendukung segala sesuatu dari otomatisasi bisnis hingga pematuhan dan analisis.

Untuk fitur ekstraksi tabel lanjutan, kunjungi Aspose.OCR untuk .NET API Referensi .

 Indonesia