Kako izvući podatke o tablici iz slika s Aspose.OCR

Kako izvući podatke o tablici iz slika s Aspose.OCR

Uz Aspose.OCR Tablica za tekst za .NET, možete automatizirati ekstrakciju strukturiranih tablica podataka iz slika – štedjeti vrijeme, smanjiti pogreške, i omogućiti bespomoćnu integraciju s bazama podataka, Excel, ili izvješćivanje alata.

Real-svjetski problem

Poduzeća često dobivaju tablice u računima, izvješćima ili obrazcima kao što su slike ili skeniranje. ručno ponovna ulaganja tih podataka u brošure ili analitičke platforme je neučinkovita i uzrokovana pogreškom, osobito za velike količine ili složenih tablica.

Pregled rješenja

ASPOSE.OCR Tablica za tekst za .NET automatizira prepoznavanje tablica i izvlačenje podataka iz slika, točno identificirajući strukturu stanice i sadržaj. To vam omogućuje da pretvorite skenirane ili snimljene tablice u strukturirane, pretražive i uredljive formate s minimalnim kodom.

Preduzeća

Prije nego što počnete, trebate:

  • Visual Studio 2019 ili kasnije
  • .NET 6.0 ili noviji (ili .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
  • Osnovno znanje C#
PM> Install-Package Aspose.OCR

Korak po korak provedba

Korak 1: Instaliranje i konfiguracija Aspose.OCR

Dodajte paket Aspose.OCR i uključite potrebne nazivne prostore:

using Aspose.OCR;

Korak 2: Pripremite stolne slike

Dodajte jednu ili više tabličnih slika u svoj ulaz. za ekstrakciju paketa, koristite više datoteka.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Korak 3: Konfigurirajte postavke za prepoznavanje tablice

Omogućite način otkrivanja stola kako bi se osiguralo da je struktura točno prepoznata.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Korak 4: Provedite proces prepoznavanja stolova

Prepoznajte tablice s konfiguriranim postavkama:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Korak 5: Izvoz i korištenje podataka o tablici

Shrani ili obrađuje prepoznate podatke tablice. možete izvoziti u tekst, Excel, JSON ili druge formate.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Korak 6: Dodajte rješavanje pogrešaka

Dodajte iznimku za rukovanje kako biste izgradili čvrste rješenja.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Korak 7: Optimizacija za složene tablice

  • Koristite skeniranje/fotografije visoke rezolucije za točnu detekciju strukture
  • Test s različitim rasporedima stolova (mješane stanice, višestruke glave, granice)
  • Tune nastavak prepoznavanja prema potrebi
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Korak 8: Potpuni radni primjer

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Korištenje slučajeva i aplikacija

Financijski izvještaji i računi

Automatski izvlači transakcijske tablice iz slika u Excel ili bazne sustave.

Istraživanje i analiza

Digitalizirajte tablice iz skeniranih publikacija ili anketnih obrazaca za analizu podataka.

Automatizirana migracija podataka

Migracija nasljednih dokumenata ili skeniranih papirnih zapisa u modernim strukturiranim formatima.

Zajednički izazovi i rješenja

Izazov 1: Blurry ili kompleksne stolne slike

Rješenje: Koristite jasnije slike ili eksperiment s preprocesiranjem kako biste poboljšali prepoznavanje strukture.

Izazov 2: Ne-standardni raspored stolova

Rješenje: Testiranje i prilagodba postavki za složene rasporedove ili bezgranične tablice.

Izazov 3: Veličanstveni ili miješani tipovi slike

Rješenje: Koristite procesiranje paketa i skeniranje direktora kako biste automatizirali ekstrakciju iz mnogih datoteka.

Razmatranje učinkovitosti

  • Koristite dobro osvijetljene, visoke slike
  • Batch proces za učinkovitost
  • Uklanjanje OCR predmeta nakon korištenja

Najbolje prakse

  • Uvijek validirati podatke izvođene tablice prije daljnje obrade
  • Preprocesne slike za optimalnu detekciju strukture
  • Zaštita i kopiranje originalnih skeniranja / slika
  • Koristite pravu formatu za izvoz za svoj radni protok (CSV, XLSX, JSON)

Napredni scenariji

Scenarij 1: Ekstrakcija mješovitih jezika

settings.Language = Language.Chinese;

Scenarij 2: Kombinacija tablice i ekstrakcije teksta

settings.DetectAreasMode = DetectAreasMode.COMBINE;

zaključak

ASPOSE.OCR Tablica za tekst za .NET pretvara tablice slike u strukturirane, uređujuće podatke – nema potrebe za ručnim ulaskom.

Za više primjera i tehničkih detalja, posjetite Aspose.OCR za .NET API reference .

 Hrvatski