Bagaimana untuk mengekstrak jadual dan data tabel daripada imej dengan Aspose.OCR
Mengekstrak jadual daripada imej, borang, atau laporan yang disemak adalah mencabar - retyping manual adalah perlahan dan mudah dengan kesilapan. Aspose.OCR Jadual ke teks untuk .NET mengautomatikkan ekstrak dan mengstruktur data tabel daripada gambar dan gambar.
Masalah dunia sebenar
Laporan kewangan, borang kaji selidik, dan hasil saintifik sering terperangkap dalam jadual atau imej yang disemak. secara manual mengembalikan data ini membazirkan jam dan risiko memasukkan kesilapan.
Gambaran keseluruhan penyelesaian
Aspose.OCR untuk .NET boleh dengan tepat mendeteksi, mengekstrak, dan menukar jadual daripada imej atau PDF yang disemak ke dalam format yang boleh dibaca oleh mesin - sempurna untuk Excel, laporan, atau automatik aliran kerja.
Prerequisites
- Visual Studio 2019 atau seterusnya
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET daripada NuGet
- Pengetahuan asas C#
PM> Install-Package Aspose.OCR
Pelaksanaan langkah demi langkah
Langkah 1: Pemasangan dan Konfigurasi Aspose.OCR
using Aspose.OCR;
Langkah 2: Mengimbas atau memotret imej yang mengandungi jadual
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Langkah 3: Mengesetkan tetapan pengenalan jadual
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Langkah 4: Melaksanakan proses pengekstrakan meja
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Langkah 5: Data Jadual Eksport
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Langkah 6: Menambah pemprosesan kesilapan dan pengesahan
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Langkah 7: Mengoptimumkan untuk papan kompleks, berputar, atau pelbagai halaman
- Preproses imej untuk deskew atau crop
- Menggunakan pemindaian resolusi tinggi atau gambar
- Untuk PDF pelbagai halaman, tambahkan setiap halaman sebagai input berasingan
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Langkah 8 : Contoh Lengkap
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Penggunaan Kasus dan Permohonan
Laporan Kewangan dan Sains
Mengekstrak jadual daripada laporan kewangan, hasil makmal, atau kertas penyelidikan untuk analisis segera dalam Excel.
Penyelidikan dan pemprosesan bentuk
Digitalisasi jadual daripada borang yang dipindai, senarai semak, atau rekod census.
Automatik aliran kerja
Menyediakan data jadual terstruktur secara langsung ke dalam aplikasi perniagaan anda, alat BI, atau pangkalan data.
Tantangan dan Penyelesaian Bersama
Tantangan 1: Kualiti rendah atau jadual kompleks
** Penyelesaian:** Gunakan imej-imej yang tinggi dan ujian pada set sampel.
Tantangan 2: Jadual berputar atau terbalik
** Penyelesaian:** Deskew imej sebelum pemprosesan; gunakan DetectAreasMode.TABLE.
Tantangan 3: Laporan pelbagai halaman
** Penyelesaian:** Tambah setiap halaman sebagai input berasingan untuk pemprosesan batch.
Pertimbangan prestasi
- Proses batch untuk kelajuan
- Menggunakan pemindaian/foto berkualiti tinggi
- Menyediakan objek OCR selepas perlumbaan besar
amalan terbaik
- Mengesahkan pengeluaran sebelum integrasi
- Tetapan pengenalan jadual tun seperti yang diperlukan
- Menyimpan data asli dan digital
- Ujian dengan sampel sebenar sebelum melancarkan
Senario lanjutan
Skenario 1: Ekstraksi Jadual Multi-Bahasa
settings.Language = Language.German;
Senario 2: Eksport ke JSON untuk Pipa Data
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Conclusion
Aspose.OCR Table to Text untuk .NET mengubah imej dan pemindaian menjadi data jadual yang boleh dijalankan dan terstruktur – bersedia untuk analisis, laporan, dan automatik.
Lihat lebih banyak sampel kod pengenalan jadual dalam Aspose.OCR untuk .NET API Rujukan .