Bagaimana untuk mengekstrak data struktur daripada jadual dan bentuk dalam imej

Bagaimana untuk mengekstrak data struktur daripada jadual dan bentuk dalam imej

Mengekstrak data daripada jadual yang disemak atau borang yang diisi adalah penting untuk automatik perniagaan, melaporkan, dan pematuhan. .NET Aspose.OCR Table to Text menyempurnakan proses ini, dengan tepat mendeteksi struktur sel dan medan dan mengeksport ke format yang boleh diedit.

Masalah dunia sebenar

Syarikat-syarikat sering menerima invois, laporan, atau borang seperti imej atau pemindaian. input manual data jadual atau medan borong adalah perlahan, berisiko, dan mahal dalam skala.

Gambaran keseluruhan penyelesaian

Dengan Table to Text untuk .NET, anda boleh mengekstrak data terstruktur - termasuk baris, lajur, dan nilai medan - secara langsung daripada imej. hasil boleh dieksport ke Excel, JSON, atau diintegrasikan dengan pangkalan data dan platform automatik.

Prerequisites

  • Visual Studio 2019 atau seterusnya
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET daripada NuGet
  • Kemahiran asas C#
PM> Install-Package Aspose.OCR

Pelaksanaan langkah demi langkah

Langkah 1: Pemasangan dan Konfigurasi Aspose.OCR

using Aspose.OCR;

Langkah 2: Sediakan jadual atau bentuk imej

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Langkah 3: Mengesetkan tetapan pengenalan untuk jadual/bentuk

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Langkah 4: Mengekstrak jadual atau data borang

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Langkah 5: Pengeluaran struktur eksport

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Langkah 6: Menguruskan kesilapan dan mengesahkan hasil

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 7: Mengoptimumkan untuk Variasi Jadual/Bentuk

  • Ujian pada sampel dengan sempadan yang berbeza, fon, atau lokasi medan
  • Tune Preprocessing seting untuk pengesanan terbaik

Langkah 8: Pengekstrakan Batch Automatik

Memproses semua imej yang berkaitan dalam folder:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Langkah 9 : Contoh Lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Penggunaan Kasus dan Permohonan

Invoice dan Laporan Automasi

Mengekstrak data kewangan untuk perakaunan atau analisis.

Formulir Penyelidikan dan Pendaftaran

Mengisi tindak balas berstruktur untuk sistem CRM, ERP, atau BI.

pematuhan dan audit

Pengekstrakan dan pengesahan data secara automatik daripada borang atau jadual yang dikemukakan.

Tantangan dan Penyelesaian Bersama

Tantangan 1: Perbatasan meja yang tidak teratur atau tataletak

** Penyelesaian:** Gunakan pra-prosesan dan sampel tuning untuk meningkatkan pengesanan.

Tantangan 2: Kandungan Campuran (Teks dan Jadual)

** Penyelesaian:** Berjalan dengan AUTO atau berasingan mengikut jenis imej untuk hasil terbaik.

Tantangan 3: Bentuk-bentuk yang kompleks dengan banyak medan

** Penyelesaian:** Ujian dan pengenalan tweak untuk bentuk ketumpatan tinggi.

Pertimbangan prestasi

  • Pengiktirafan meja lebih CPU-intensif; memantau kerja-kerja batch
  • Mengesahkan output untuk aliran kerja kritikal
  • Batch eksport untuk integrasi dengan alat lain

amalan terbaik

  • Mengesahkan data berstruktur pada sampel sebelum mengukur
  • Menjaga dan mengarkibkan kedua-dua imej sumber dan output yang dikeluarkan
  • Mengemas kini Aspose.OCR secara berkala untuk peningkatan ketepatan
  • Tetapan Tune untuk Layout Dokumen Baru

Senario lanjutan

Senario 1: Eksport ke pangkalan data atau alat BI

// Use JSON or Excel export for integration with data pipelines

Scenario 2: Ekstraksi masa nyata dalam aplikasi web

// Integrate extraction logic into ASP.NET or workflow API

Conclusion

Aspose.OCR Table to Text untuk .NET membolehkan anda untuk mengautomatikkan pengekstrakan data berstruktur daripada imej dan borang, menyokong segala-galanya dari automatik perniagaan kepada pematuhan dan analisis.

Untuk ciri-ciri pengekstrakan meja yang canggih, lawati Aspose.OCR untuk .NET API Rujukan .

 Melayu