Bagaimana untuk mengekstrak tabel dan data tabel dari gambar dengan Aspose.OCR

Bagaimana untuk mengekstrak tabel dan data tabel dari gambar dengan Aspose.OCR

Mengekstrak tabel dari gambar, formulir, atau laporan yang dipindai adalah tantangan – retyping manual lambat dan kelalaian. Aspose.OCR Table to Text for .NET mengautomatikkan ekstraksi dan struktur data tabel daripada gambar dan foto.

Masalah dunia nyata

Laporan keuangan, formulir tinjauan, dan hasil ilmiah sering terjebak dalam tabel atau gambar yang dipindai. mengembalikan data ini secara manual membazirkan jam dan risiko membuat kesalahan.

Penyelesaian Overview

Aspose.OCR untuk .NET dapat dengan tepat mengidentifikasi, mengekstrak, dan mengkonversi tabel dari gambar atau PDF yang dipindai ke format yang dapat dibaca mesin – sempurna untuk Excel, laporan, atau otomatisasi aliran kerja.

Persyaratan

  • Visual Studio 2019 atau lebih baru
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET dari NuGet
  • Pengetahuan dasar C#
PM> Install-Package Aspose.OCR

Implementasi langkah demi langkah

Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR

using Aspose.OCR;

Langkah 2: Memindai atau memotret gambar yang mengandung tabel

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Langkah 3: Mengkonfigurasi pengaturan pengenalan tabel

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Langkah 4: Lakukan proses ekstraksi meja

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Langkah 5: Data tabel ekspor

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Langkah 6: Menambahkan Error Handling dan Validasi

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 7: Mengoptimalkan untuk tabel kompleks, berputar, atau multi-page

  • Preprocess gambar untuk deskew atau crop
  • Gunakan pemindaian resolusi tinggi atau foto
  • Untuk PDF multipage, tambahkan setiap halaman sebagai input yang terpisah
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Langkah 8 : Contoh Lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Menggunakan kasus dan aplikasi

Laporan keuangan dan ilmiah

Mengekstrak tabel dari laporan keuangan, hasil laboratorium, atau kertas penelitian untuk analisis instan dalam Excel.

Penyelidikan dan Form Processing

Digitisasi tabel dari formulir yang dipindai, checklists, atau catatan census.

Automatik Workflow

Menyediakan data tabel terstruktur langsung ke aplikasi bisnis Anda, alat BI, atau database.

Tantangan dan Solusi Umum

Tantangan 1: Kualitas yang buruk atau tabel kompleks

** Solusi:** Gunakan gambar tinggi dan tes pada set sampel. Preprocess untuk meningkatkan ketelusan.

Tantangan 2: Jadual berputar atau terbalik

** Solusi:** Deskew gambar sebelum pemrosesan; gunakan DetectAreasMode.TABLE.

Tantangan 3: Laporan Multi-Page

** Solusi:** Tambah setiap halaman sebagai input terpisah untuk pemrosesan batch.

Pertimbangan kinerja

  • Proses batch untuk kecepatan
  • Menggunakan scan/foto berkualitas tinggi
  • Mendapatkan objek OCR setelah lomba besar

Praktik Terbaik

  • Mengkonfirmasi hasil sebelum integrasi
  • Tune tabel pengenalan pengaturan yang diperlukan
  • Menyimpan data asli dan digital
  • Ujian dengan sampel nyata sebelum mendistribusikan

Skenario Lanjutan

Skenario 1: Ekstraksi meja multi-bahasa

settings.Language = Language.German;

Skenario 2: Ekspor ke JSON untuk Pipa Data

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Kesimpulan

Aspose.OCR Table to Text for .NET mengubah gambar dan pemindaian menjadi data tabel yang dapat dioperasikan dan terstruktur – siap untuk analisis, laporan, dan otomatisasi.

Lihat lebih banyak sampel kode pengenalan tabel di Aspose.OCR untuk .NET API Referensi .

 Indonesia