Bagaimana untuk mengekstrak tabel dan data tabel dari gambar dengan Aspose.OCR
Mengekstrak tabel dari gambar, formulir, atau laporan yang dipindai adalah tantangan – retyping manual lambat dan kelalaian. Aspose.OCR Table to Text for .NET mengautomatikkan ekstraksi dan struktur data tabel daripada gambar dan foto.
Masalah dunia nyata
Laporan keuangan, formulir tinjauan, dan hasil ilmiah sering terjebak dalam tabel atau gambar yang dipindai. mengembalikan data ini secara manual membazirkan jam dan risiko membuat kesalahan.
Penyelesaian Overview
Aspose.OCR untuk .NET dapat dengan tepat mengidentifikasi, mengekstrak, dan mengkonversi tabel dari gambar atau PDF yang dipindai ke format yang dapat dibaca mesin – sempurna untuk Excel, laporan, atau otomatisasi aliran kerja.
Persyaratan
- Visual Studio 2019 atau lebih baru
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET dari NuGet
- Pengetahuan dasar C#
PM> Install-Package Aspose.OCR
Implementasi langkah demi langkah
Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR
using Aspose.OCR;
Langkah 2: Memindai atau memotret gambar yang mengandung tabel
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Langkah 3: Mengkonfigurasi pengaturan pengenalan tabel
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Langkah 4: Lakukan proses ekstraksi meja
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Langkah 5: Data tabel ekspor
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Langkah 6: Menambahkan Error Handling dan Validasi
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Langkah 7: Mengoptimalkan untuk tabel kompleks, berputar, atau multi-page
- Preprocess gambar untuk deskew atau crop
- Gunakan pemindaian resolusi tinggi atau foto
- Untuk PDF multipage, tambahkan setiap halaman sebagai input yang terpisah
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Langkah 8 : Contoh Lengkap
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Menggunakan kasus dan aplikasi
Laporan keuangan dan ilmiah
Mengekstrak tabel dari laporan keuangan, hasil laboratorium, atau kertas penelitian untuk analisis instan dalam Excel.
Penyelidikan dan Form Processing
Digitisasi tabel dari formulir yang dipindai, checklists, atau catatan census.
Automatik Workflow
Menyediakan data tabel terstruktur langsung ke aplikasi bisnis Anda, alat BI, atau database.
Tantangan dan Solusi Umum
Tantangan 1: Kualitas yang buruk atau tabel kompleks
** Solusi:** Gunakan gambar tinggi dan tes pada set sampel. Preprocess untuk meningkatkan ketelusan.
Tantangan 2: Jadual berputar atau terbalik
** Solusi:** Deskew gambar sebelum pemrosesan; gunakan DetectAreasMode.TABLE.
Tantangan 3: Laporan Multi-Page
** Solusi:** Tambah setiap halaman sebagai input terpisah untuk pemrosesan batch.
Pertimbangan kinerja
- Proses batch untuk kecepatan
- Menggunakan scan/foto berkualitas tinggi
- Mendapatkan objek OCR setelah lomba besar
Praktik Terbaik
- Mengkonfirmasi hasil sebelum integrasi
- Tune tabel pengenalan pengaturan yang diperlukan
- Menyimpan data asli dan digital
- Ujian dengan sampel nyata sebelum mendistribusikan
Skenario Lanjutan
Skenario 1: Ekstraksi meja multi-bahasa
settings.Language = Language.German;
Skenario 2: Ekspor ke JSON untuk Pipa Data
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Kesimpulan
Aspose.OCR Table to Text for .NET mengubah gambar dan pemindaian menjadi data tabel yang dapat dioperasikan dan terstruktur – siap untuk analisis, laporan, dan otomatisasi.
Lihat lebih banyak sampel kode pengenalan tabel di Aspose.OCR untuk .NET API Referensi .