Miten poistaa tekstiä skannattujen kuvien kanssa Aspose.OCR

Miten poistaa tekstiä skannattujen kuvien kanssa Aspose.OCR

Sopimusten, sopimusten, kirjan sivujen tai vanhojen rekistereiden skannaus tuottaa yleensä kuvan tiedostoja – ei muokattavissa olevaa tekstiä. Aspose.OCR Scan to Text for .NET avulla voit automaattisesti poistaa rakennetun, etsimättömän tekstin skannatuista asiakirjoista tai valokuvista, säästää lukemattomia tunteja manuaalista kirjoitusta.

Reaalimaailman ongelma

Paperi-asiakirjat, kirjat ja arkistot tallennetaan usein kuvissa. niiden sisällön poistaminen digitaalisen työnkulun, vaatimustenmukaisuuden tai tutkimuksen kannalta voi olla hidas, kallis ja alttiina virheeseen, jos se tehdään manuaalisesti.

Ratkaisun yleiskatsaus

Aspose.OCR Scan to Text for .NET muuntaa tulostettujen sivujen kuvia käytettävissä olevaksi tekstiksi, käsittelee yksikokoisia, monikoulukoisia ja monimutkaisia järjestelyjä. Työnkulku on täydellinen sopimusten, kirjojen, arkistojen ja liiketoimintaasiakirjojen digitointiin nykyaikaiseen käyttöön.

edellytykset

Varmista että sinulla on:

  • Visual Studio 2019 tai uudempi
  • .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET alkaen NuGet
  • Perustiedot C#
PM> Install-Package Aspose.OCR

Vaiheittainen toteutus

Vaihe 1: Asenna ja asenna Aspose.OCR

Lisää NuGet-paketti ja viittaus Aspose.OCR:

using Aspose.OCR;

Vaihe 2: Lisää skannattuja kuvia

Lataa yhden tai useamman kuvan tiedostoja käsiteltäväksi.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Vaihe 3: Määritä tunnistusasetukset

Tune asiakirjan kielelle ja asetukselle tarvittaessa.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Vaihe 4: Käynnistä tunnistamisprosessia

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Vaihe 5: Tallenna tai käsitellä poistettua tekstiä

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Vaihe 6: Lisää virheiden käsittely

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Vaihe 7: Optimoi asiakirjojen asetukset

  • Kirjoja tai artikkeleita varten käytä DetectAreasMode.DOCUMENT tai kokeile DetecTrea.AUTO
  • Ennalta käsiteltyjä kuvia (viljely, deskew) parhaan tarkkuuden
  • Batch-prosessit suurille arkistoille
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Vaihe 8: Täydellinen esimerkki

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Käytä tapauksia ja sovelluksia

Sopimus ja sopimus digitalisointi

Nopeasti digitoida oikeudellisia tai liiketoiminta-asiakirjoja hakua, arkistointia ja digitaalisia työnkulkuja varten.

Kirjan ja arkiston käsittely

Muunna kirjasivut tai historialliset arkistot etsimättömiksi, muokattaviksi muodoiksi.

Tietojen noudattaminen ja poistaminen

Mahdollistaa automaattiset vaatimustenmukaisuuden tarkastukset, auditoinnit tai tekstiä perintöasiakirjoista.

Yhteiset haasteet ja ratkaisut

Haaste 1: Alhainen laatu skannat tai kuorma teksti

** Ratkaisu:** Käytä esikäsittelyä tai parantaa kuvia OCR: n tarkkuuden parantamiseksi.

Haaste 2: Monikerroksiset tai monimutkaiset asetukset

** Ratkaisu:** Määritä DetectAreasMode ja testaa parhaan asetuksen käsittelyn.

Haaste 3: Batch Digitalisointi

** Ratkaisu:** Käytä joukkojen käsittelyä ja resurssien hallintaa laajamittaisiin työpaikkoihin.

suorituskyvyn huomioon ottaminen

  • Batch-prosessi nopeuden ja skalaavuuden varmistamiseksi
  • Käytä laadukkaita lähteitä
  • OCR-objekteja käytön jälkeen

Parhaat käytännöt

  • Aina validoi saatu teksti ennen automaatiota tai arkistointia
  • Käytä asiakirjan tyypin oikeita tunnistusasetuksia
  • Varmuuskopioitu alkuperäiset skannat viittauksille
  • Testit OCR: n tulokset näytteellä ennen tuotantoa

Edistyneet skenaariot

Käsikirja 1: Monikielisten asiakirjojen tuottaminen

settings.Language = Language.French;

Skenaario 2: JSONin vienti integraatioon

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

johtopäätöksiä

Aspose.OCR Scan to Text for .NET on nopein tapa muuntaa skannattuja kuvia ja paperiasiakirjoja käytettäväksi, muokattavaan tekstiin – ihanteellinen oikeudellisiin, akateemisiin tai yrityshankkeisiin.

Katso lisää esimerkkejä ja teknisiä yksityiskohtia ASPOSE.OCR .NET API-referenssille .

 Suomi