Cara Mengekstrak Data Jadual Dari Gambar Dengan Aspose.OCR

Cara Mengekstrak Data Jadual Dari Gambar Dengan Aspose.OCR

Mengekstrak jadual daripada imej yang disemak atau dipotret sering merupakan proses manual, error-prone.Dengan Aspose.OCR Jadual ke teks untuk .NET, anda boleh mengautomatikkan ekstrak data tabel berstruktur dari gambar – menjimatkan masa, mengurangkan kesilapan, dan membolehkan integrasi tanpa wayar dengan pangkalan data, Excel, atau alat laporan.

Masalah dunia sebenar

Syarikat-syarikat sering menerima jadual dalam invois, laporan, atau borang seperti imej atau pemindaian. secara manual memasukkan semula data ini ke dalam papan lebar atau platform analisis adalah tidak berkesan dan berisiko, terutamanya untuk volum besar atau papan kompleks.

Gambaran keseluruhan penyelesaian

Aspose.OCR Table to Text untuk .NET mengautomatikkan pengenalan jadual dan pengekstrakan data daripada imej, dengan tepat mengenal pasti struktur sel dan kandungan. ini membolehkan anda menukar papan yang disemak atau difoto ke dalam format terstruktur, boleh dicari, dan boleh diedit dengan kod minimum.

Prerequisites

Sebelum memulakan, anda akan memerlukan:

  • Visual Studio 2019 atau seterusnya
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET daripada NuGet
  • Pengetahuan asas C#
PM> Install-Package Aspose.OCR

Pelaksanaan langkah demi langkah

Langkah 1: Pemasangan dan Konfigurasi Aspose.OCR

Tambah pakej Aspose.OCR dan termasuk ruang nama yang diperlukan:

using Aspose.OCR;

Langkah 2: Persiapan Input Gambar Jadual

Tambah satu atau lebih imej jadual kepada input anda. untuk pengekstrakan batch, gunakan beberapa fail.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Langkah 3: Mengesetkan tetapan pengenalan jadual

Membolehkan mod pengesanan jadual untuk memastikan struktur diiktiraf dengan tepat.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Langkah 4: Melaksanakan proses pengiktirafan jadual

Mengenalpasti jadual dengan tetapan yang dikonfigurasi:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Langkah 5: Mengeksport dan Menggunakan Data Jadual

Simpan atau memproses data jadual yang diiktiraf. anda boleh mengeksport kepada teks, Excel, JSON, atau format lain.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Langkah 6: Menambah penyelesaian kesilapan

Menambah pengendalian pengecualian untuk membina penyelesaian yang kukuh.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 7: Optimisasi untuk Jadual Kompleks

  • Gunakan pemindaian/foto resolusi tinggi untuk pengesanan struktur yang tepat
  • Ujian dengan pelbagai tataletak meja (sel campuran, headers multi-line, sempadan)
  • Tune pengenalan seting seperti yang diperlukan
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Langkah 8: Contoh kerja lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Penggunaan Kasus dan Permohonan

Laporan kewangan dan invois

Mengekstrak jadual transaksi daripada imej ke dalam sistem Excel atau pangkalan data secara automatik.

Penyelidikan dan Analisis

Digitalisasi jadual daripada penerbitan yang disemak atau borang kaji selidik untuk analisis data.

Migrasi Data Automatik

Migrasi dokumen warisan atau rekod kertas yang disemak ke dalam format berstruktur moden.

Tantangan dan Penyelesaian Bersama

Tantangan 1: Blurry atau Gambar Jadual Kompleks

** Penyelesaian:** Gunakan imej yang lebih jelas atau eksperimen dengan pra-pemasangan untuk meningkatkan pengenalan struktur.

Tantangan 2: Layout meja yang tidak standard

** Penyelesaian:** Ujian dan penyesuaian tetapan untuk tataletak yang kompleks atau jadual tanpa sempadan.

Tantangan 3: Batch besar atau jenis imej campuran

** Penyelesaian:** Gunakan pemprosesan batch dan pemindaian direktori untuk mengautomatikkan pengekstrakan daripada banyak fail.

Pertimbangan prestasi

  • Menggunakan imej-imej yang cerah dan tinggi
  • Proses batch untuk kecekapan
  • Menyediakan objek OCR selepas digunakan

amalan terbaik

  • Sentiasa mengesahkan data jadual yang dieksport sebelum pemprosesan lanjut
  • Preprocess imej untuk pengesanan struktur yang optimum
  • Keselamatan dan sandaran pemindaian / imej asal
  • Gunakan format eksport yang betul untuk aliran kerja anda (CSV, XLSX, JSON)

Senario lanjutan

Skenario 1: Mengekstrak Jadual Bahasa Campuran

settings.Language = Language.Chinese;

Senario 2: Menggabungkan Jadual dan Ekstraksi Teks

settings.DetectAreasMode = DetectAreasMode.COMBINE;

Conclusion

Aspose.OCR Table to Text untuk .NET mengubah jadual imej menjadi data yang terstruktur dan boleh diedit - tiada input manual yang diperlukan.

Untuk maklumat lanjut dan butiran teknikal, sila rujuk Aspose.OCR untuk .NET API Rujukan .

 Melayu