Kuinka poistaa taulukon tiedot kuvista Aspose.OCR: n avulla
Taulukkojen poisto skannatuista tai kuvattuista kuvista on usein manuaalinen, virheellinen prosessi. Aspose.OCR-taulukon tekstiin .NET:lle avulla voit automaattisesti poistaa rakenteellisia tauluketietoja kuvasta – säästää aikaa, vähentää virhettä ja mahdollistaa turhautumaton integrointi tietokantoihin, Excelin tai raportointityökaluihin.
Reaalimaailman ongelma
Yritykset saavat usein taulukoita laskuissa, raportteissa tai lomakkeissa kuten kuvissa tai skannauksissa. Manuaalisesti uudelleen syöttää näitä tietoja levytiedostoihin tai analyyttisiin alustoihin on tehottomia ja virheellisiä, varsinkin suurten määrien tai monimutkaisten taulukkojen osalta.
Ratkaisun yleiskatsaus
Aspose.OCR Table to Text for .NET automatisoi taulukon tunnistamisen ja tiedon poistamisen kuvista, tunnistaa tarkasti solurakenteen ja sisällön. Tämä mahdollistaa skannattujen tai kuvattujen taulukoiden muuntamisen rakenteellisiin, hakukäyttöisiin ja muokattaviin muotoihin minimaalisella koodilla.
edellytykset
Ennen kuin aloitat, tarvitset:
- Visual Studio 2019 tai uudempi
- .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET alkaen NuGet
- Perustiedot C#
PM> Install-Package Aspose.OCR
Vaiheittainen toteutus
Vaihe 1: Asenna ja asenna Aspose.OCR
Lisää Aspose.OCR-paketti ja sisällytä tarvittavat nimityöt:
using Aspose.OCR;
Vaihe 2: Valmista pöydän kuvan tulokset
Lisää yhden tai useamman taulukon kuvan sisäänkäyntiin. potin poistoon käytä useita tiedostoja.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
Vaihe 3: Määritä taulukon tunnistusasetukset
Taulukon havaitsemismallin avulla varmistetaan, että rakenne tunnistetaan tarkasti.
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
Vaihe 4: Käynnistä pöydän tunnistusprosessia
Tunnista taulukot konfiguroiduilla asetuksilla:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Vaihe 5: Vienti ja käyttö taulukon tiedot
Tallenna tai käsitellä tunnistetut taulukon tiedot. Voit viedä tekstiin, Excel, JSON tai muihin muotoihin.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
Vaihe 6: Lisää virheiden käsittely
Lisää poikkeusta käsittelyä luodaan kestäviä ratkaisuja.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Vaihe 7: Optimoi monimutkaisia taulukoita
- Käytä korkean resoluution skannauksia/kuvia tarkkaan rakenteen havaitsemiseksi
- Testaa eri pöytäkirjojen kanssa (sekoitetut solut, monivaiheiset otsikot, rajat)
- Tune tunnistusasetukset tarvittaessa
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
Vaihe 8: Täydellinen työ esimerkki
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Käytä tapauksia ja sovelluksia
Rahoitusraportit ja laskut
Poista kaupankäynti taulukot kuvista Excelin tai tietokannan järjestelmiin automaattisesti.
Tutkimus ja analyysi
Digitoi taulukot skannatuista julkaisuista tai kyselylomakkeista tietojen analysointiin.
Tietojen automaattinen muuttoliike
Siirtää perintöasiakirjat tai skannattu paperitiedostoja nykyaikaisiin rakenteellisiin muotoihin.
Yhteiset haasteet ja ratkaisut
Haaste 1: Blurry tai monimutkaiset pöytäkuvat
** Ratkaisu:** Käytä selkeämpiä kuvia tai kokeita ennakkoprosessia rakenteiden tunnistamisen parantamiseksi.
Haaste 2: Ei-standardin pöydän asetukset
** Ratkaisu:** Testaa ja säätää asetuksia monimutkaisiin asetteluihin tai rajaton taulukoihin.
Haaste 3: Suuret kuvat tai sekoitettujen kuvien tyypit
** Ratkaisu:** Käytä matkapaketin käsittelyä ja luetteloiden skannausta automaattiseen poistoon monista tiedostoista.
suorituskyvyn huomioon ottaminen
- Käytä hyvin kirkkaita, korkeatasoisia kuvia
- Batch-prosessit tehokkuuden kannalta
- OCR-objekteja käytön jälkeen
Parhaat käytännöt
- Aina validoi vienti taulukon tiedot ennen jatkokäsittelyä
- Ennaltaehkäisevät kuvat optimaalisen rakenteen havaitsemiseksi
- Turvallinen ja varmuuskopioitu alkuperäiset skannat/kuvat
- Käytä oikeaa vientiformaattia työnkulkuun (CSV, XLSX, JSON)
Edistyneet skenaariot
Käsikirjoitus 1: Mixed-Language Table Extraction
settings.Language = Language.Chinese;
Käsikirjoitus 2: Taulukon ja tekstin yhdistäminen
settings.DetectAreasMode = DetectAreasMode.COMBINE;
johtopäätöksiä
Aspose.OCR Table to Text for .NET muuttaa kuvan taulukoita rakenteellisiin, muokattaviin tietoihin – ei manuaalista sisäänpääsyä tarvitaan. nopeuttaa taloudellista raportointia, analyysiä ja digitaalista arkistointia tarkan, automaattisen taulukon kaavion avulla.
Lisää esimerkkejä ja teknisiä yksityiskohtia, katso ASPOSE.OCR .NET API-referenssille .