Kako izvući tablice i podatke o tablicama iz slika s Aspose.OCR-om

Kako izvući tablice i podatke o tablicama iz slika s Aspose.OCR-om

Ekstrakcija tablica iz slika, obrasca ili skeniranih izvješća je izazovna – ručno retyping je usporen i bez pogrešaka.Aspose.OCR Tablica za tekst za .NET automatizira ekstrakciju i strukturiranje podataka tablice iz slike i fotografija.

Real-svjetski problem

Financijska izjava, obrazci istraživanja i znanstveni rezultati često se nalaze u skeniranim tablicama ili slikama.Ručno prikupljanje tih podataka gubi satima i rizikima uvođenja pogrešaka.

Pregled rješenja

Aspose.OCR za .NET može točno otkriti, izvući i pretvoriti tablice iz slika ili skeniranih PDF-a u strojno čitljive formate – savršeno za Excel, izvješćivanje ili automatizaciju radnog toka.

Preduzeća

  • Visual Studio 2019 ili kasnije
  • .NET 6.0 ili noviji (ili .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
  • Osnovno znanje C#
PM> Install-Package Aspose.OCR

Korak po korak provedba

Korak 1: Instaliranje i konfiguracija Aspose.OCR

using Aspose.OCR;

2. korak: skeniranje ili fotografiranje slika koje sadrže tablice

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Korak 3: Konfigurirajte postavke za prepoznavanje tablice

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Korak 4: Provedite proces ekstrakcije stola

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Korak 5: Izvoz tablice podataka

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Korak 6: Dodajte rješavanje pogrešaka i potvrdu

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Korak 7: Optimizacija za složene, rotacijske ili višestruke tablice

  • Preproces slike za deskew ili crop
  • Koristite skeniranje ili fotografije visoke rezolucije
  • Za više stranica PDF-a, dodajte svaku stranicu kao odvojen ulaz
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Sljedeći Članak 8: Popuniti primjer

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Korištenje slučajeva i aplikacija

Financijsko i znanstveno izvješćivanje

Izvlačite tablice iz financijskih izvješća, rezultata laboratorija ili istraživačkih dokumenata za trenutnu analizu u programu Excel.

Istraživanje i obrada oblika

Digitalizirajte tablice iz skeniranih obrazaca, kontrolnih popisa ili cenzurnih zapisa.

Automatizacija radnog toka

Dodajte strukturirane podatke tablice izravno u vaše poslovne aplikacije, BI alate ili baze podataka.

Zajednički izazovi i rješenja

Izazov 1: loša kvaliteta ili složenih tablica

Rješenje: Koristite slike s visokim rasponom i testirajte ih na skupovima uzoraka.

Izazov 2: Okretne ili razbijene tablice

Rješenje: Deskew slike prije obrade; koristite DetectAreasMode.TABLE.

Sljedeći Članak Izazov 3: Mnogobrojni izvještaji

Rješenje: Dodajte svaku stranicu kao odvojenu ulaznicu za obradu paketa.

Razmatranje učinkovitosti

  • Batch proces za brzinu
  • Korištenje visokokvalitetnih skeniranja/fotografija
  • OCR predmeti nakon velikih trka

Najbolje prakse

  • Potvrdite proizvodnju prije integracije
  • Tune tablica prepoznavanje postavke prema potrebi
  • Kopiranje originalnih i digitalnih podataka
  • Test s stvarnim uzorcima prije raspoređivanja

Napredni scenariji

Scenarij 1: Multi-jezična stolna ekstrakcija

settings.Language = Language.German;

Scenarij 2: Izvoz na JSON za podatkovne cijevi

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

zaključak

Aspose.OCR Tablica za tekst za .NET pretvara slike i skeniranje u aktivne, strukturirane podatke tablice – spremne za analizu, izvješćivanje i automatizaciju.

Pogledajte više uzoraka identifikacijskog koda u Aspose.OCR za .NET API reference .

 Hrvatski