Kaip skaitmeninti knygas ir daugiakalnius dokumentus su Aspose.OCR

Kaip skaitmeninti knygas ir daugiakalnius dokumentus su Aspose.OCR

Knygų ir žurnalų skenavimas ar fotografavimas dažnai sukelia sudėtingus, daugiapakopinius vaizdus – iššūkius standartiniam OCR. Aspose.OCR .NET teikia pažangias nustatymus, kad būtų galima patikimai ištraukti struktūrizuotą, stulpų užsakytą tekstą – idealiai tinka bibliotekoms, moksliniams tyrimams ir leidiniams.

Realaus pasaulio problemos

Knygos, laikraščiai ir žurnalai dažnai saugomi kaip skenuojami vaizdai su stulpeliais, paminkliais ir iliustracijomis. Skaitymo, struktūrizuoto teksto išmetimas rankiniu būdu yra lėtas, klaidų priežastis ir brangus bibliotekoms ar archyvams.

Sprendimo apžvalga

ASPOSE.OCR .NET valdo daugiakalnius ir sudėtingus dizainus, išsaugo skaitymo tvarką ir leidžia automatizuoti knygų ir žurnalų masinį skaitmeninimą, taupo laiką ir pagerina duomenų tikslumą mokslininkams bei leidėjams.

Prerequisites

Įsitikinkite, kad turite:

  • „Visual Studio 2019“ arba vėliau
  • .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
  • ASPOSE.OCR už .NET iš NuGet
  • Pagrindiniai C# įgūdžiai
PM> Install-Package Aspose.OCR

Žingsnis po žingsnio įgyvendinimas

1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR

using Aspose.OCR;

2 žingsnis: nuskaityti arba fotografuoti savo knygos / žurnalų puslapius

Įveskite visus skanytus puslapio vaizdus į savo įrašą, kad būtų galima atpažinti batchą.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

3 žingsnis: nustatyti daugiapakopio atpažinimo nustatymus

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

4 žingsnis: tekstą išgauti struktūrizuota tvarka

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5 žingsnis: eksportuoti arba išsaugoti skaitmeninį tekstą

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

6 žingsnis: pridėti klaidų tvarkymą ir kokybės patikrinimus

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7 žingsnis: optimizuokite bulk arba retas knygas

  • „Batch“ tvarko visas knygos puslapius
  • Naudokite aukšto lygio skenavimus retoms ar senoms knygoms
  • Patvirtinkite pavyzdžio puslapį prieš paleidžiant visą kolekciją
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

8 žingsnis: pilnas pavyzdys

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Naudokite atvejus ir paraiškas

Bibliotekos ir skaitmeninės žmonijos

Galima skaitmeninį paskolą, paiešką ir retų knygų ir istorinių laikraščių analizę.

Akademinė ir mokslinių tyrimų publikacija

Lengvai skaitmenizuokite žurnalus, konferencijų procedūras ar tekstinius knygas elektroniniam prieigai.

Daugiakalbės ir sudėtingos struktūros

Paimkite turinį iš žurnalų su užsienio kalbos kolonomis, puslapiomis ar pėdsakomis.

Bendrieji iššūkiai ir sprendimai

1 iššūkis: be eilutės ar iliustracijų

Išsprendimas: Naudokite aukštos kokybės skenavimus ir bandykite DOCUMENT/AUTO režimus, kad gautumėte geriausią skaitymo užsakymą.

Iššūkis 2: OCR kokybė senoms ar sugadintoms knygoms

Išsprendimas: Išplėskite skenavimus ir patvirtinkite rezultatus prieš masinį apdorojimą.

3 iššūkis: didelio masto skaitmeninimas

Išsprendimas: Automatizuokite darbo srautus ir naudokite klaidų tvarkymą didelio masto operacijoms.

Veiksmingumo apžvalgos

  • Naudokite gerus šaltinio skenavimus, ypač retoms ar pažeidžiamoms knygoms
  • Batch procesas skalės
  • Suvokti skaitmeninius rezultatus lanksčiais formatais (tekstas, žodis, PDF)

Geriausios praktikos

  • Išleidimo patvirtinimas prieš originalias puslapius tikslumui
  • Organizuokite knygų puslapius pagal tūrį ir skyrių, kad būtų lengva grąžinti
  • Atsarginis tiek skenavimas, tiek skaitmeninis tekstas
  • Atnaujinkite OCR variklį naujausiems patobulinimams

Išplėstiniai scenarijai

1 scenarijus: daugiakalbių žurnalų skaitmeninimas

settings.Language = Language.German;

2 scenarijus: eksportuoti į PDF eBook skaitytojams

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

Conclusion

Aspose.OCR .NET yra greičiausias būdas pristatyti knygas ir sudėtingas publikacijas į skaitmeninį amžių, paruoštas paieškos, analizės ir dalijimosi.

Žiūrėti papildomus pavyzdžius ir integracijos patarimus ASPOSE.OCR už .NET API nuorodą .

 Lietuvių