Kaip ištrinti tekstą iš skenuojamų vaizdų su Aspose.OCR

Kaip ištrinti tekstą iš skenuojamų vaizdų su Aspose.OCR

Skanymas sutartis, susitarimai, knygos puslapius ar senus įrašus paprastai gamina vaizdo failus – ne redaguojamas tekstas. Aspose.OCR Scan to Text for .NET leidžia automatuoti struktūrizuotą, paieškos tekstą iš bet kokio skenuojamo dokumento ar nuotraukos, sutaupant daug valandų rankiniu įrašu.

Realaus pasaulio problemos

Papieriniai dokumentai, knygos ir archyvai dažnai saugomi kaip vaizdai. jų turinio ekstrakcija skaitmeniniams darbo srautams, atitikčiai ar moksliniams tyrimams gali būti lėta, brangi ir linkusi klaidų, jei atliekama rankiniu būdu.

Sprendimo apžvalga

Aspose.OCR Scan to Text for .NET konvertuoja spausdintų puslapių vaizdus į naudingą tekstą, tvarko vienkartinius, daugiakombinius ir sudėtingus dizainus. Darbo srautas puikiai tinka skaitmeninti sutartis, knygas, įrašus ir verslo dokumentus šiuolaikiniam naudojimui.

Prerequisites

Įsitikinkite, kad turite:

  • „Visual Studio 2019“ arba vėliau
  • .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
  • ASPOSE.OCR už .NET iš NuGet
  • Pagrindinės C# žinios
PM> Install-Package Aspose.OCR

Žingsnis po žingsnio įgyvendinimas

1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR

Pridėti NuGet paketą ir nuorodą Aspose.OCR:

using Aspose.OCR;

2 žingsnis: įdėkite savo skenuojamus vaizdus

Atsisiųskite vieną arba kelis vaizdo failus, kuriuos reikia apdoroti.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

3 žingsnis: nustatyti atpažinimo nustatymus

Tune dokumentų kalba ir išdėstymas, kaip reikia.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

4 žingsnis: vykdykite pripažinimo procesą

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5 žingsnis: išsaugoti arba apdoroti išvestą tekstą

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

6 žingsnis: pridėti klaidų tvarkymą

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7 žingsnis: optimizuokite dokumentų išdėstymą

  • Knygų ar straipsnių atveju naudokite DetectAreasMode.DOCUMENT arba pabandykite DetektAreaModa.AUTO
  • Iš anksto apdorojamos nuotraukos (sėklos, plytelės) geriausiam tikslumui
  • Batch procesas dideliems archyvams
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

8 žingsnis: pilnas pavyzdys

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Naudokite atvejus ir paraiškas

Sutarties ir susitarimo skaitmeninimas

Greitai skaitmeninti teisinius ar verslo dokumentus paieškos, archyvavimo ir skaitmeniniais darbo srautais.

Knygos ir archyvų apdorojimas

Konvertuoti knygų puslapius ar istorinius įrašus į paieškos, redagavimo formatus.

Atitiktis ir duomenų ekstrakcija

Galima automatizuoti atitikties patikrinimus, auditus ar teksto ekstrakciją iš paveldėjimo dokumentų.

Bendrieji iššūkiai ir sprendimai

1 iššūkis: žemos kokybės skenavimas arba prakeiktas tekstas

Išsprendimas: Naudokite išankstinį apdorojimą arba pagerinkite vaizdus, kad būtų užtikrintas geresnis OCR tikslumas.

2 iššūkis: daugiapakopiai arba kompleksiniai nustatymai

Išsprendimas: Pritaikyti DetectAreasMode ir išbandyti geriausią tvarkymo tvarką.

Iššūkis 3: Batch skaitmeninimas

Išsprendimas: Naudokite batch apdorojimą ir išteklių valdymą didelio masto darbo vietoms.

Veiksmingumo apžvalgos

  • Batch procesas greičiui ir skalavimui
  • Naudokite geros kokybės šaltinio nuotraukas
  • OCR objektai po naudojimo

Geriausios praktikos

  • Visada patvirtinkite ištrauktą tekstą prieš automatizavimą ar archyvuojimą
  • Naudokite teisingus atpažinimo nustatymus dokumentų tipui
  • Išsaugoti originalius skanus referencijai
  • OCR bandymų rezultatai prieš gamybą

Išplėstiniai scenarijai

1 scenarijus: daugiakalbių dokumentų ekstrakcija

settings.Language = Language.French;

2 scenarijus: eksportas į JSON integracijai

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Conclusion

ASPOSE.OCR Skanymas į tekstą .NET yra greitesnis būdas paversti skanytus vaizdus ir popierinius dokumentus naudingam, redaguojamam tekstui – idealiai tinka teisiniams, akademiniams ar verslo projektams.

Žiūrėti daugiau pavyzdžių ir techninių detalių ASPOSE.OCR už .NET API nuorodą .

 Lietuvių