Bagaimana untuk mengekstrak data terstruktur dari tabel dan bentuk dalam gambar
Mengekstrak data dari tabel yang dipindai atau formulir yang diisi adalah penting untuk otomatisasi bisnis, laporan, dan pematuhan. Aspose.OCR Table to Text for .NET menyempurnakan proses ini, dengan tepat mendeteksi struktur sel dan medan dan mengekspor ke format yang dapat diedit.
Masalah dunia nyata
Bisnis sering menerima invois, laporan, atau formulir seperti gambar atau pemindaian. input manual dari data tabel atau pola bentuk adalah lambat, kelalaian, dan mahal pada skala.
Penyelesaian Overview
Dengan Table to Text untuk .NET, Anda dapat mengekstrak data terstruktur – termasuk baris, kolom, dan nilai lapangan – langsung dari gambar. hasil dapat diekspor ke Excel, JSON, atau terintegrasi dengan basis data dan platform otomatisasi.
Persyaratan
- Visual Studio 2019 atau lebih baru
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET dari NuGet
- Keterampilan dasar C#
PM> Install-Package Aspose.OCR
Implementasi langkah demi langkah
Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR
using Aspose.OCR;
Langkah 2: Siapkan tabel atau bentuk gambar
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Langkah 3: Mengkonfigurasi pengaturan pengenalan untuk tabel/bentuk
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Langkah 4: Mengekstrak tabel atau data formulir
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Langkah 5: Eksport Produksi Berstruktur
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Langkah 6: Mengatasi kesilapan dan validasi hasil
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Langkah 7: Mengoptimalkan Variasi Jadual/Bentuk
- Ujian pada sampel dengan sempadan yang berbeda, fon, atau lokasi lapangan
- Tune Preprocessing Settings untuk Deteksi Terbaik
Langkah 8: Automatic Batch Extraction
Memproses semua gambar yang relevan dalam folder:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Langkah 9 : Contoh lengkap
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Menggunakan kasus dan aplikasi
Invoice dan Reporting Automation
Mengekstrak data keuangan untuk akuntansi atau analisis.
Formulir Survei dan Pendaftaran
Pull respons terstruktur untuk sistem CRM, ERP, atau BI.
Kepatuhan dan Audit
Mengekstrak dan validasi data secara otomatis dari formulir atau tabel yang dikirim.
Tantangan dan Solusi Umum
Tantangan 1: Perbatasan meja yang tidak teratur atau layout
** Solusi:** Gunakan preprocessing dan sampel tuning untuk meningkatkan deteksi.
Tantangan 2: Kandungan Bercampur (Teks dan Jadual)
** Solusi:** Berjalan dengan AUTO atau terpisah menurut jenis gambar untuk hasil terbaik.
Tantangan 3: Bentuk-bentuk kompleks dengan banyak bidang
** Solusi:** Pengujian dan pengenalan tweak untuk bentuk kepadatan tinggi.
Pertimbangan kinerja
- Pengenalan meja lebih intens dari CPU; pekerjaan batch monitor
- Validasi output untuk aliran kerja kritis
- Batch Export untuk Integrasi dengan Alat Lain
Praktik Terbaik
- Validasi data terstruktur pada sampel sebelum skala
- Menjaga dan mengarkibkan kedua-dua gambar sumber dan output yang diekstrak
- Update Aspose.OCR secara teratur untuk peningkatan ketepatan
- Pengaturan Tune untuk Layout Dokumen Baru
Skenario Lanjutan
Skenario 1: Eksport ke Database atau BI Tools
// Use JSON or Excel export for integration with data pipelines
Skenario 2: Ekstraksi waktu nyata dalam aplikasi web
// Integrate extraction logic into ASP.NET or workflow API
Kesimpulan
Aspose.OCR Table to Text for .NET memungkinkan Anda untuk mengautomatikkan ekstraksi data terstruktur dari gambar dan formulir, mendukung segala sesuatu dari otomatisasi bisnis hingga pematuhan dan analisis.
Untuk fitur ekstraksi tabel lanjutan, kunjungi Aspose.OCR untuk .NET API Referensi .