Kuinka poistaa rakenteelliset tiedot taulukoista ja muodoista kuvissa
Tietojen poistaminen skannatuista taulukoista tai täyttyistä lomakkeista on välttämätöntä liiketoiminnan automaation, raportoinnin ja noudattamisen kannalta. Aspose.OCR Table to Text for .NET yksinkertaistaa tätä prosessia, tunnistaa tarkasti solun ja kentän rakenteen ja viedä muokkaaville muodoille.
Reaalimaailman ongelma
Yritykset saavat usein laskuja, raportteja tai lomakkeita kuvien tai skannausten muodossa. Taulukon tietojen ja lomakemateriaalien manuaalinen sisäänpääsy on hidasta, virheellistä ja kalliita.
Ratkaisun yleiskatsaus
Table to Text for .NET -ohjelman avulla voit poistaa rakenteellisia tietoja - mukaan lukien rivit, sarakkeet ja kenttäarvot - suoraan kuvista. tulokset voidaan viedä Excelin, JSONin tai integroida tietokantoihin ja automaatioalustoihin.
edellytykset
- Visual Studio 2019 tai uudempi
- .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET alkaen NuGet
- Tärkeimmät C#-taidot
PM> Install-Package Aspose.OCR
Vaiheittainen toteutus
Vaihe 1: Asenna ja asenna Aspose.OCR
using Aspose.OCR;
Vaihe 2: Valmista taulukko tai kuvan muoto
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Vaihe 3: Määritä tunnistusasetukset taulukoille / lomakkeille
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Vaihe 4: Poista taulukko tai lomakkeen tiedot
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Vaihe 5: Rakenteellinen vienti
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Vaihe 6: Virheiden käsittely ja tulosten vahvistaminen
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Vaihe 7: Optimoi taulukon/muodon vaihtelut
- Testaa näytteitä, joilla on eri rajat, fontit tai kentän sijoitukset
- Tune preprocessing asetukset parhaan havaitsemiseksi
Vaihe 8: Automatic Batch Extraction
Käsittele kaikki merkitykselliset kuvat kansiossa:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Vaihe 9: Täydellinen esimerkki
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Käytä tapauksia ja sovelluksia
Laskun ja raportoinnin automaatio
Tuoda taloudellisia tietoja kirjanpitoon tai analyysiin.
Tutkimus ja rekisteröinti lomakkeet
Pull strukturoituja vastauksia CRM, ERP tai BI järjestelmille.
vaatimustenmukaisuus ja tarkastus
Tietojen automaattinen poisto ja validointi toimitetuista lomakkeista tai taulukoista.
Yhteiset haasteet ja ratkaisut
Haaste 1: Epäsäännölliset pöydän rajat tai asetukset
** Ratkaisu:** Käytä etukäteen käsiteltävää ja näytteenottoa havaitsemisen parantamiseksi.
Haaste 2: sekoitettu sisältö (teksti ja taulukot)
** Ratkaisu:** Käynnistä AUTO:llä tai erikseen kuvan tyypin mukaan parhaan tuloksen saavuttamiseksi.
Haaste 3: monimutkaiset muodot monilla kentillä
** Ratkaisu:** Testi ja tweak tunnistus korkean tiheyden muodoille.
suorituskyvyn huomioon ottaminen
- Pöydän tunnistaminen on CPU-intensiteettiä enemmän; seuranta batch työt
- Tutustu kriittisiin työnkulkuihin
- Batchin vienti integraatioon muiden työkalujen kanssa
Parhaat käytännöt
- Validoi rakenteelliset tiedot näytteillä ennen skalaamista
- Turvallista ja arkistoi sekä lähdekuvia että saatuja tuloksia
- ASPOSE.OCR päivitetään säännöllisesti tarkkuuden parantamiseksi
- Tune-asetukset uusille asiakirjojen asetuksille
Edistyneet skenaariot
Skenaario 1: Tietokannan tai BI-työkalujen vienti
// Use JSON or Excel export for integration with data pipelines
Käsikirjoitus 2: Real-Time Extraction in Web Apps
// Integrate extraction logic into ASP.NET or workflow API
johtopäätöksiä
Aspose.OCR Table to Text for .NET antaa sinulle mahdollisuuden automatisoida rakenteellista tiedonlähtöä kuvista ja lomakkeista, tukemalla kaikkea liiketoiminnan automaatiosta vaatimustenmukaisuuteen ja analysointiin.
Edistyksellisten pöytäkäyttöominaisuuksien osalta vieraile ASPOSE.OCR .NET API-referenssille .