Kuinka poistaa rakenteelliset tiedot taulukoista ja muodoista kuvissa

Kuinka poistaa rakenteelliset tiedot taulukoista ja muodoista kuvissa

Tietojen poistaminen skannatuista taulukoista tai täyttyistä lomakkeista on välttämätöntä liiketoiminnan automaation, raportoinnin ja noudattamisen kannalta. Aspose.OCR Table to Text for .NET yksinkertaistaa tätä prosessia, tunnistaa tarkasti solun ja kentän rakenteen ja viedä muokkaaville muodoille.

Reaalimaailman ongelma

Yritykset saavat usein laskuja, raportteja tai lomakkeita kuvien tai skannausten muodossa. Taulukon tietojen ja lomakemateriaalien manuaalinen sisäänpääsy on hidasta, virheellistä ja kalliita.

Ratkaisun yleiskatsaus

Table to Text for .NET -ohjelman avulla voit poistaa rakenteellisia tietoja - mukaan lukien rivit, sarakkeet ja kenttäarvot - suoraan kuvista. tulokset voidaan viedä Excelin, JSONin tai integroida tietokantoihin ja automaatioalustoihin.

edellytykset

  • Visual Studio 2019 tai uudempi
  • .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET alkaen NuGet
  • Tärkeimmät C#-taidot
PM> Install-Package Aspose.OCR

Vaiheittainen toteutus

Vaihe 1: Asenna ja asenna Aspose.OCR

using Aspose.OCR;

Vaihe 2: Valmista taulukko tai kuvan muoto

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Vaihe 3: Määritä tunnistusasetukset taulukoille / lomakkeille

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Vaihe 4: Poista taulukko tai lomakkeen tiedot

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Vaihe 5: Rakenteellinen vienti

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Vaihe 6: Virheiden käsittely ja tulosten vahvistaminen

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Vaihe 7: Optimoi taulukon/muodon vaihtelut

  • Testaa näytteitä, joilla on eri rajat, fontit tai kentän sijoitukset
  • Tune preprocessing asetukset parhaan havaitsemiseksi

Vaihe 8: Automatic Batch Extraction

Käsittele kaikki merkitykselliset kuvat kansiossa:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Vaihe 9: Täydellinen esimerkki

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Käytä tapauksia ja sovelluksia

Laskun ja raportoinnin automaatio

Tuoda taloudellisia tietoja kirjanpitoon tai analyysiin.

Tutkimus ja rekisteröinti lomakkeet

Pull strukturoituja vastauksia CRM, ERP tai BI järjestelmille.

vaatimustenmukaisuus ja tarkastus

Tietojen automaattinen poisto ja validointi toimitetuista lomakkeista tai taulukoista.

Yhteiset haasteet ja ratkaisut

Haaste 1: Epäsäännölliset pöydän rajat tai asetukset

** Ratkaisu:** Käytä etukäteen käsiteltävää ja näytteenottoa havaitsemisen parantamiseksi.

Haaste 2: sekoitettu sisältö (teksti ja taulukot)

** Ratkaisu:** Käynnistä AUTO:llä tai erikseen kuvan tyypin mukaan parhaan tuloksen saavuttamiseksi.

Haaste 3: monimutkaiset muodot monilla kentillä

** Ratkaisu:** Testi ja tweak tunnistus korkean tiheyden muodoille.

suorituskyvyn huomioon ottaminen

  • Pöydän tunnistaminen on CPU-intensiteettiä enemmän; seuranta batch työt
  • Tutustu kriittisiin työnkulkuihin
  • Batchin vienti integraatioon muiden työkalujen kanssa

Parhaat käytännöt

  • Validoi rakenteelliset tiedot näytteillä ennen skalaamista
  • Turvallista ja arkistoi sekä lähdekuvia että saatuja tuloksia
  • ASPOSE.OCR päivitetään säännöllisesti tarkkuuden parantamiseksi
  • Tune-asetukset uusille asiakirjojen asetuksille

Edistyneet skenaariot

Skenaario 1: Tietokannan tai BI-työkalujen vienti

// Use JSON or Excel export for integration with data pipelines

Käsikirjoitus 2: Real-Time Extraction in Web Apps

// Integrate extraction logic into ASP.NET or workflow API

johtopäätöksiä

Aspose.OCR Table to Text for .NET antaa sinulle mahdollisuuden automatisoida rakenteellista tiedonlähtöä kuvista ja lomakkeista, tukemalla kaikkea liiketoiminnan automaatiosta vaatimustenmukaisuuteen ja analysointiin.

Edistyksellisten pöytäkäyttöominaisuuksien osalta vieraile ASPOSE.OCR .NET API-referenssille .

 Suomi