Bagaimana untuk mengekstrak data struktur daripada jadual dan bentuk dalam imej
Mengekstrak data daripada jadual yang disemak atau borang yang diisi adalah penting untuk automatik perniagaan, melaporkan, dan pematuhan. .NET Aspose.OCR Table to Text menyempurnakan proses ini, dengan tepat mendeteksi struktur sel dan medan dan mengeksport ke format yang boleh diedit.
Masalah dunia sebenar
Syarikat-syarikat sering menerima invois, laporan, atau borang seperti imej atau pemindaian. input manual data jadual atau medan borong adalah perlahan, berisiko, dan mahal dalam skala.
Gambaran keseluruhan penyelesaian
Dengan Table to Text untuk .NET, anda boleh mengekstrak data terstruktur - termasuk baris, lajur, dan nilai medan - secara langsung daripada imej. hasil boleh dieksport ke Excel, JSON, atau diintegrasikan dengan pangkalan data dan platform automatik.
Prerequisites
- Visual Studio 2019 atau seterusnya
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET daripada NuGet
- Kemahiran asas C#
PM> Install-Package Aspose.OCR
Pelaksanaan langkah demi langkah
Langkah 1: Pemasangan dan Konfigurasi Aspose.OCR
using Aspose.OCR;
Langkah 2: Sediakan jadual atau bentuk imej
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Langkah 3: Mengesetkan tetapan pengenalan untuk jadual/bentuk
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Langkah 4: Mengekstrak jadual atau data borang
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Langkah 5: Pengeluaran struktur eksport
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Langkah 6: Menguruskan kesilapan dan mengesahkan hasil
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Langkah 7: Mengoptimumkan untuk Variasi Jadual/Bentuk
- Ujian pada sampel dengan sempadan yang berbeza, fon, atau lokasi medan
- Tune Preprocessing seting untuk pengesanan terbaik
Langkah 8: Pengekstrakan Batch Automatik
Memproses semua imej yang berkaitan dalam folder:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Langkah 9 : Contoh Lengkap
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Penggunaan Kasus dan Permohonan
Invoice dan Laporan Automasi
Mengekstrak data kewangan untuk perakaunan atau analisis.
Formulir Penyelidikan dan Pendaftaran
Mengisi tindak balas berstruktur untuk sistem CRM, ERP, atau BI.
pematuhan dan audit
Pengekstrakan dan pengesahan data secara automatik daripada borang atau jadual yang dikemukakan.
Tantangan dan Penyelesaian Bersama
Tantangan 1: Perbatasan meja yang tidak teratur atau tataletak
** Penyelesaian:** Gunakan pra-prosesan dan sampel tuning untuk meningkatkan pengesanan.
Tantangan 2: Kandungan Campuran (Teks dan Jadual)
** Penyelesaian:** Berjalan dengan AUTO atau berasingan mengikut jenis imej untuk hasil terbaik.
Tantangan 3: Bentuk-bentuk yang kompleks dengan banyak medan
** Penyelesaian:** Ujian dan pengenalan tweak untuk bentuk ketumpatan tinggi.
Pertimbangan prestasi
- Pengiktirafan meja lebih CPU-intensif; memantau kerja-kerja batch
- Mengesahkan output untuk aliran kerja kritikal
- Batch eksport untuk integrasi dengan alat lain
amalan terbaik
- Mengesahkan data berstruktur pada sampel sebelum mengukur
- Menjaga dan mengarkibkan kedua-dua imej sumber dan output yang dikeluarkan
- Mengemas kini Aspose.OCR secara berkala untuk peningkatan ketepatan
- Tetapan Tune untuk Layout Dokumen Baru
Senario lanjutan
Senario 1: Eksport ke pangkalan data atau alat BI
// Use JSON or Excel export for integration with data pipelines
Scenario 2: Ekstraksi masa nyata dalam aplikasi web
// Integrate extraction logic into ASP.NET or workflow API
Conclusion
Aspose.OCR Table to Text untuk .NET membolehkan anda untuk mengautomatikkan pengekstrakan data berstruktur daripada imej dan borang, menyokong segala-galanya dari automatik perniagaan kepada pematuhan dan analisis.
Untuk ciri-ciri pengekstrakan meja yang canggih, lawati Aspose.OCR untuk .NET API Rujukan .