Miten poistaa tekstiä skannattujen kuvien kanssa Aspose.OCR
Sopimusten, sopimusten, kirjan sivujen tai vanhojen rekistereiden skannaus tuottaa yleensä kuvan tiedostoja – ei muokattavissa olevaa tekstiä. Aspose.OCR Scan to Text for .NET avulla voit automaattisesti poistaa rakennetun, etsimättömän tekstin skannatuista asiakirjoista tai valokuvista, säästää lukemattomia tunteja manuaalista kirjoitusta.
Reaalimaailman ongelma
Paperi-asiakirjat, kirjat ja arkistot tallennetaan usein kuvissa. niiden sisällön poistaminen digitaalisen työnkulun, vaatimustenmukaisuuden tai tutkimuksen kannalta voi olla hidas, kallis ja alttiina virheeseen, jos se tehdään manuaalisesti.
Ratkaisun yleiskatsaus
Aspose.OCR Scan to Text for .NET muuntaa tulostettujen sivujen kuvia käytettävissä olevaksi tekstiksi, käsittelee yksikokoisia, monikoulukoisia ja monimutkaisia järjestelyjä. Työnkulku on täydellinen sopimusten, kirjojen, arkistojen ja liiketoimintaasiakirjojen digitointiin nykyaikaiseen käyttöön.
edellytykset
Varmista että sinulla on:
- Visual Studio 2019 tai uudempi
- .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET alkaen NuGet
- Perustiedot C#
PM> Install-Package Aspose.OCR
Vaiheittainen toteutus
Vaihe 1: Asenna ja asenna Aspose.OCR
Lisää NuGet-paketti ja viittaus Aspose.OCR:
using Aspose.OCR;
Vaihe 2: Lisää skannattuja kuvia
Lataa yhden tai useamman kuvan tiedostoja käsiteltäväksi.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
Vaihe 3: Määritä tunnistusasetukset
Tune asiakirjan kielelle ja asetukselle tarvittaessa.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
Vaihe 4: Käynnistä tunnistamisprosessia
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Vaihe 5: Tallenna tai käsitellä poistettua tekstiä
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
// Save to Word or PDF as needed
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
Vaihe 6: Lisää virheiden käsittely
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Use results...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Vaihe 7: Optimoi asiakirjojen asetukset
- Kirjoja tai artikkeleita varten käytä DetectAreasMode.DOCUMENT tai kokeile DetecTrea.AUTO
- Ennalta käsiteltyjä kuvia (viljely, deskew) parhaan tarkkuuden
- Batch-prosessit suurille arkistoille
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
input.Add(file);
}
Vaihe 8: Täydellinen esimerkki
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Käytä tapauksia ja sovelluksia
Sopimus ja sopimus digitalisointi
Nopeasti digitoida oikeudellisia tai liiketoiminta-asiakirjoja hakua, arkistointia ja digitaalisia työnkulkuja varten.
Kirjan ja arkiston käsittely
Muunna kirjasivut tai historialliset arkistot etsimättömiksi, muokattaviksi muodoiksi.
Tietojen noudattaminen ja poistaminen
Mahdollistaa automaattiset vaatimustenmukaisuuden tarkastukset, auditoinnit tai tekstiä perintöasiakirjoista.
Yhteiset haasteet ja ratkaisut
Haaste 1: Alhainen laatu skannat tai kuorma teksti
** Ratkaisu:** Käytä esikäsittelyä tai parantaa kuvia OCR: n tarkkuuden parantamiseksi.
Haaste 2: Monikerroksiset tai monimutkaiset asetukset
** Ratkaisu:** Määritä DetectAreasMode ja testaa parhaan asetuksen käsittelyn.
Haaste 3: Batch Digitalisointi
** Ratkaisu:** Käytä joukkojen käsittelyä ja resurssien hallintaa laajamittaisiin työpaikkoihin.
suorituskyvyn huomioon ottaminen
- Batch-prosessi nopeuden ja skalaavuuden varmistamiseksi
- Käytä laadukkaita lähteitä
- OCR-objekteja käytön jälkeen
Parhaat käytännöt
- Aina validoi saatu teksti ennen automaatiota tai arkistointia
- Käytä asiakirjan tyypin oikeita tunnistusasetuksia
- Varmuuskopioitu alkuperäiset skannat viittauksille
- Testit OCR: n tulokset näytteellä ennen tuotantoa
Edistyneet skenaariot
Käsikirja 1: Monikielisten asiakirjojen tuottaminen
settings.Language = Language.French;
Skenaario 2: JSONin vienti integraatioon
foreach (RecognitionResult result in results)
{
result.Save("scanned_text.json", SaveFormat.Json);
}
johtopäätöksiä
Aspose.OCR Scan to Text for .NET on nopein tapa muuntaa skannattuja kuvia ja paperiasiakirjoja käytettäväksi, muokattavaan tekstiin – ihanteellinen oikeudellisiin, akateemisiin tai yrityshankkeisiin.
Katso lisää esimerkkejä ja teknisiä yksityiskohtia ASPOSE.OCR .NET API-referenssille .