Bagaimana untuk mengekstrak jadual dan data tabel daripada imej dengan Aspose.OCR

Bagaimana untuk mengekstrak jadual dan data tabel daripada imej dengan Aspose.OCR

Mengekstrak jadual daripada imej, borang, atau laporan yang disemak adalah mencabar - retyping manual adalah perlahan dan mudah dengan kesilapan. Aspose.OCR Jadual ke teks untuk .NET mengautomatikkan ekstrak dan mengstruktur data tabel daripada gambar dan gambar.

Masalah dunia sebenar

Laporan kewangan, borang kaji selidik, dan hasil saintifik sering terperangkap dalam jadual atau imej yang disemak. secara manual mengembalikan data ini membazirkan jam dan risiko memasukkan kesilapan.

Gambaran keseluruhan penyelesaian

Aspose.OCR untuk .NET boleh dengan tepat mendeteksi, mengekstrak, dan menukar jadual daripada imej atau PDF yang disemak ke dalam format yang boleh dibaca oleh mesin - sempurna untuk Excel, laporan, atau automatik aliran kerja.

Prerequisites

  • Visual Studio 2019 atau seterusnya
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET daripada NuGet
  • Pengetahuan asas C#
PM> Install-Package Aspose.OCR

Pelaksanaan langkah demi langkah

Langkah 1: Pemasangan dan Konfigurasi Aspose.OCR

using Aspose.OCR;

Langkah 2: Mengimbas atau memotret imej yang mengandungi jadual

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Langkah 3: Mengesetkan tetapan pengenalan jadual

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Langkah 4: Melaksanakan proses pengekstrakan meja

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Langkah 5: Data Jadual Eksport

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Langkah 6: Menambah pemprosesan kesilapan dan pengesahan

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 7: Mengoptimumkan untuk papan kompleks, berputar, atau pelbagai halaman

  • Preproses imej untuk deskew atau crop
  • Menggunakan pemindaian resolusi tinggi atau gambar
  • Untuk PDF pelbagai halaman, tambahkan setiap halaman sebagai input berasingan
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Langkah 8 : Contoh Lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Penggunaan Kasus dan Permohonan

Laporan Kewangan dan Sains

Mengekstrak jadual daripada laporan kewangan, hasil makmal, atau kertas penyelidikan untuk analisis segera dalam Excel.

Penyelidikan dan pemprosesan bentuk

Digitalisasi jadual daripada borang yang dipindai, senarai semak, atau rekod census.

Automatik aliran kerja

Menyediakan data jadual terstruktur secara langsung ke dalam aplikasi perniagaan anda, alat BI, atau pangkalan data.

Tantangan dan Penyelesaian Bersama

Tantangan 1: Kualiti rendah atau jadual kompleks

** Penyelesaian:** Gunakan imej-imej yang tinggi dan ujian pada set sampel.

Tantangan 2: Jadual berputar atau terbalik

** Penyelesaian:** Deskew imej sebelum pemprosesan; gunakan DetectAreasMode.TABLE.

Tantangan 3: Laporan pelbagai halaman

** Penyelesaian:** Tambah setiap halaman sebagai input berasingan untuk pemprosesan batch.

Pertimbangan prestasi

  • Proses batch untuk kelajuan
  • Menggunakan pemindaian/foto berkualiti tinggi
  • Menyediakan objek OCR selepas perlumbaan besar

amalan terbaik

  • Mengesahkan pengeluaran sebelum integrasi
  • Tetapan pengenalan jadual tun seperti yang diperlukan
  • Menyimpan data asli dan digital
  • Ujian dengan sampel sebenar sebelum melancarkan

Senario lanjutan

Skenario 1: Ekstraksi Jadual Multi-Bahasa

settings.Language = Language.German;

Senario 2: Eksport ke JSON untuk Pipa Data

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR Table to Text untuk .NET mengubah imej dan pemindaian menjadi data jadual yang boleh dijalankan dan terstruktur – bersedia untuk analisis, laporan, dan automatik.

Lihat lebih banyak sampel kod pengenalan jadual dalam Aspose.OCR untuk .NET API Rujukan .

 Melayu