Miten poistaa tekstiä skannattujen kuvien kanssa Aspose.OCR

Sopimusten, sopimusten, kirjan sivujen tai vanhojen rekistereiden skannaus tuottaa yleensä kuvan tiedostoja – ei muokattavissa olevaa tekstiä. Aspose.OCR Scan to Text for .NET avulla voit automaattisesti poistaa rakennetun, etsimättömän tekstin skannatuista asiakirjoista tai valokuvista, säästää lukemattomia tunteja manuaalista kirjoitusta.

Reaalimaailman ongelma

Paperi-asiakirjat, kirjat ja arkistot tallennetaan usein kuvissa. niiden sisällön poistaminen digitaalisen työnkulun, vaatimustenmukaisuuden tai tutkimuksen kannalta voi olla hidas, kallis ja alttiina virheeseen, jos se tehdään manuaalisesti.

Ratkaisun yleiskatsaus

Aspose.OCR Scan to Text for .NET muuntaa tulostettujen sivujen kuvia käytettävissä olevaksi tekstiksi, käsittelee yksikokoisia, monikoulukoisia ja monimutkaisia järjestelyjä. Työnkulku on täydellinen sopimusten, kirjojen, arkistojen ja liiketoimintaasiakirjojen digitointiin nykyaikaiseen käyttöön.

edellytykset

Varmista että sinulla on:

Visual Studio 2019 tai uudempi
.NET 6.0 tai uudempi (tai .NET Framework 4.6.2+)
Aspose.OCR for .NET alkaen NuGet
Perustiedot C

PM> Install-Package Aspose.OCR

Vaiheittainen toteutus

Vaihe 1: Asenna ja asenna Aspose.OCR

Lisää NuGet-paketti ja viittaus Aspose.OCR:

using Aspose.OCR;

Vaihe 2: Lisää skannattuja kuvia

Lataa yhden tai useamman kuvan tiedostoja käsiteltäväksi.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Vaihe 3: Määritä tunnistusasetukset

Tune asiakirjan kielelle ja asetukselle tarvittaessa.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Vaihe 4: Käynnistä tunnistamisprosessia

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Vaihe 5: Tallenna tai käsitellä poistettua tekstiä

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Vaihe 6: Lisää virheiden käsittely

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Vaihe 7: Optimoi asiakirjojen asetukset

Kirjoja tai artikkeleita varten käytä DetectAreasMode.DOCUMENT tai kokeile DetecTrea.AUTO
Ennalta käsiteltyjä kuvia (viljely, deskew) parhaan tarkkuuden
Batch-prosessit suurille arkistoille

foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Vaihe 8: Täydellinen esimerkki

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Käytä tapauksia ja sovelluksia

Sopimus ja sopimus digitalisointi

Nopeasti digitoida oikeudellisia tai liiketoiminta-asiakirjoja hakua, arkistointia ja digitaalisia työnkulkuja varten.

Kirjan ja arkiston käsittely

Muunna kirjasivut tai historialliset arkistot etsimättömiksi, muokattaviksi muodoiksi.

Tietojen noudattaminen ja poistaminen

Mahdollistaa automaattiset vaatimustenmukaisuuden tarkastukset, auditoinnit tai tekstiä perintöasiakirjoista.

Yhteiset haasteet ja ratkaisut

Haaste 1: Alhainen laatu skannat tai kuorma teksti

Ratkaisu: Käytä esikäsittelyä tai parantaa kuvia OCR: n tarkkuuden parantamiseksi.

Haaste 2: Monikerroksiset tai monimutkaiset asetukset

Ratkaisu: Määritä DetectAreasMode ja testaa parhaan asetuksen käsittelyn.

Haaste 3: Batch Digitalisointi

Ratkaisu: Käytä joukkojen käsittelyä ja resurssien hallintaa laajamittaisiin työpaikkoihin.

suorituskyvyn huomioon ottaminen

Batch-prosessi nopeuden ja skalaavuuden varmistamiseksi
Käytä laadukkaita lähteitä
OCR-objekteja käytön jälkeen

Parhaat käytännöt

Aina validoi saatu teksti ennen automaatiota tai arkistointia
Käytä asiakirjan tyypin oikeita tunnistusasetuksia
Varmuuskopioitu alkuperäiset skannat viittauksille
Testit OCR: n tulokset näytteellä ennen tuotantoa

Edistyneet skenaariot

Käsikirja 1: Monikielisten asiakirjojen tuottaminen

settings.Language = Language.French;

Skenaario 2: JSONin vienti integraatioon

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

johtopäätöksiä

Aspose.OCR Scan to Text for .NET on nopein tapa muuntaa skannattuja kuvia ja paperiasiakirjoja käytettäväksi, muokattavaan tekstiin – ihanteellinen oikeudellisiin, akateemisiin tai yrityshankkeisiin.

Katso lisää esimerkkejä ja teknisiä yksityiskohtia Aspose.OCR .NET API-referenssille .