Cara Mengekstrak Data Jadual dari Gambar dengan Aspose.OCR

Cara Mengekstrak Data Jadual dari Gambar dengan Aspose.OCR

Dengan Aspose.OCR Table to Text untuk .NET, Anda dapat mengautomatikkan ekstraksi data tabel terstruktur dari gambar – menjimatkan waktu, mengurangi kesalahan, dan memungkinkan integrasi tanpa batas dengan database, Excel, atau alat laporan.

Masalah dunia nyata

Bisnis sering menerima tabel dalam invois, laporan, atau formulir seperti gambar atau pemindaian. secara manual mengembalikan data ini ke spreadsheets atau platform analisis adalah tidak efektif dan error-proof, terutama untuk volume besar atau tabel kompleks.

Penyelesaian Overview

Aspose.OCR Table to Text for .NET mengautomatikkan pengenalan tabel dan pengekstrakan data dari gambar, dengan tepat mengidentifikasi struktur sel dan konten. ini memungkinkan Anda mengubah tabel yang dipindai atau dipotret menjadi format terstruktur, dapat dicari, dan dapat diedit dengan kode minimum.

Persyaratan

Sebelum memulai, Anda akan membutuhkan:

  • Visual Studio 2019 atau lebih baru
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET dari NuGet
  • Pengetahuan dasar C#
PM> Install-Package Aspose.OCR

Implementasi langkah demi langkah

Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR

Tambahkan paket Aspose.OCR dan termasuk ruang nama yang diperlukan:

using Aspose.OCR;

Langkah 2: Siapkan Input Gambar Jadual

Tambahkan satu atau lebih gambar tabel ke input Anda.Untuk ekstraksi batch, gunakan beberapa file.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Langkah 3: Mengkonfigurasi pengaturan pengenalan tabel

Memungkinkan mode deteksi tabel untuk memastikan struktur diakui dengan tepat.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Langkah 4: Melakukan proses pengenalan tabel

Mengidentifikasi tabel dengan pengaturan yang terkonfigurasi:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Langkah 5: Ekspor dan Menggunakan Data Jadual

Anda dapat mengekspor ke teks, Excel, JSON, atau format lainnya.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Langkah 6: Menambahkan Error Handling

Tambahkan pengelolaan pengecualian untuk membangun solusi yang kuat.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 7: Optimisasi untuk tabel kompleks

  • Gunakan pemindaian/foto resolusi tinggi untuk deteksi struktur yang akurat
  • Ujian dengan berbagai tataletak meja (sel campuran, headers multi-line, batas)
  • Mengatur pengenalan yang diperlukan
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Langkah 8: Contoh kerja lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Menggunakan kasus dan aplikasi

Laporan keuangan dan invois

Mengekstrak tabel transaksi dari gambar ke sistem Excel atau database secara otomatis.

Penyelidikan dan Analisis

Digitalisasi tabel dari publikasi yang dipindai atau formulir survei untuk analisis data.

Migrasi data otomatis

Migrasi dokumen warisan atau rekaman kertas yang dipindai ke format terstruktur modern.

Tantangan dan Solusi Umum

Tantangan 1: Blurry atau Gambar Jadual Kompleks

** Solusi:** Gunakan gambar yang lebih jelas atau eksperimen dengan pra-pengolahan untuk meningkatkan pengenalan struktur.

Tantangan 2: Layout meja non-standar

** Solusi:** Menguji dan menyesuaikan pengaturan untuk tata letak yang kompleks atau tabel tak terbatas.

Tantangan 3: Batch besar atau jenis gambar campuran

** Solusi:** Gunakan pemrosesan batch dan pemindaian direktori untuk mengautomatikkan ekstraksi dari banyak file.

Pertimbangan kinerja

  • Gunakan gambar-gambar yang cerah dan tinggi
  • Proses batch untuk efisiensi
  • Menyediakan objek OCR setelah digunakan

Praktik Terbaik

  • Selalu validasi data tabel yang diekspor sebelum pemrosesan lebih lanjut
  • Preprocess image untuk optimal deteksi struktur
  • Perlindungan dan backup scan asli/gambar
  • Gunakan format ekspor yang tepat untuk aliran kerja Anda (CSV, XLSX, JSON)

Skenario Lanjutan

Skenario 1: Mengekstraksi tabel bahasa campuran

settings.Language = Language.Chinese;

Skenario 2: menggabungkan tabel dan ekstraksi teks

settings.DetectAreasMode = DetectAreasMode.COMBINE;

Kesimpulan

Aspose.OCR Table to Text for .NET mengubah tabel gambar menjadi data terstruktur dan dapat diedit – tidak ada input manual yang diperlukan. mempercepat laporan keuangan, analisis, dan penyimpanan digital dengan ekstraksi tabel yang akurat dan otomatis.

Untuk lebih banyak contoh dan rincian teknis, kunjungi Aspose.OCR untuk .NET API Referensi .

 Indonesia