Kuinka digitalisoida kirjoja ja monikerroksisia asiakirjoja Aspose.OCR:llä

Kuinka digitalisoida kirjoja ja monikerroksisia asiakirjoja Aspose.OCR:llä

Kirjojen ja aikakauslehden skannaaminen tai valokuvaaminen johtaa usein monimutkaisiin, monikerroksisiin kuviin, jotka vaativat standardin OCR:tä. Aspose.OCR for .NET tarjoaa kehittyneitä asetuksia, joilla voidaan luotettavasti poistaa rakenteellista, sarjakuvaista tekstiä, joka on ihanteellinen kirjastoihin, tutkimukseen ja julkaisuun.

Reaalimaailman ongelma

Kirjat, sanomalehdet ja toimitukset tallennetaan usein skannattuina kuvissa, joissa on sarakkeita, huomautuksia ja kuvioita. lukemattoman, rakenteellisen tekstin poistaminen manuaalisesti on hidasta, virheellistä ja kalliita kirjastoille tai arkistoille.

Ratkaisun yleiskatsaus

Aspose.OCR for .NET käsittelee monikerroksisia ja monimutkaisia järjestelyjä, säilyttää lukemisen järjestyksen ja sallii kirjojen ja aikakauslehden massiivisen digitalisoinnin, säästää aikaa ja parantaa tiedon tarkkuutta tutkijoille ja julkaisuille.

edellytykset

Varmista, että sinulla on:

  • Visual Studio 2019 tai uudempi
  • .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET alkaen NuGet
  • Tärkeimmät C#-taidot
PM> Install-Package Aspose.OCR

Vaiheittainen toteutus

Vaihe 1: Asenna ja asenna Aspose.OCR

using Aspose.OCR;

Vaihe 2: Tarkista tai valokuvaa kirjan/lehden sivuja

Lisää kaikki skannattujen sivun kuvien sisällön batch tunnistamiseen.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

Vaihe 3: Määritä monikerroksinen tunnistusasetukset

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

Vaihe 4: Poista teksti rakenteellisessa järjestyksessä

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Vaihe 5: Digitaalisen tekstin vienti tai tallennus

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

Vaihe 6: Lisää virheiden käsittely ja laadun tarkastukset

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Vaihe 7: Optimoi joukko- tai harvinaisia kirjoja

  • Batch käsittelee kaikkia kirjan sivuja lomakkeissa
  • Käytä korkean tason skannauksia harvinaisiin tai vanhoihin kirjoihin
  • Validoi näytteen sivu ennen koko keräyksen suorittamista
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

Vaihe 8: Täydellinen esimerkki

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Käytä tapauksia ja sovelluksia

Kirjastot ja digitaalinen ihmiskunta

Mahdollistaa harvinaisten kirjojen ja historiallisten sanomalehtien digitaalisen lainaamisen, hakemisen ja analysoinnin.

Akateeminen ja tutkimusjulkaisu

Helppo digitoida lehtiä, konferenssikäsityksiä tai tekstikirjoja sähköiseen pääsyyn.

Monikieliset ja monimutkaiset asetukset

Poista sisältö ajakirjoista, joissa on vieraan kielen sarakkeita, sivuja tai huomautuksia.

Yhteiset haasteet ja ratkaisut

Haaste 1: Ei kolumneja tai kuvioita

** Ratkaisu:** Käytä laadukkaita skannauksia ja testaa DOCUMENT/AUTO -tilauksia parhaaseen lukemiseen.

Haaste 2: OCR-laatu vanhoille tai vaurioituneille kirjoille

** Ratkaisu:** Parantaa skannauksia ja vahvista tuloksia ennen massan käsittelyä.

Haaste 3: Massive Scale Digitization

** Ratkaisu:** Automaattiset työvirrat ja käytä virheiden käsittelyä laajamittaisiin toimintoihin.

suorituskyvyn huomioon ottaminen

  • Käytä hyviä lähteitä, erityisesti harvinaisia tai hauraita kirjoja
  • Batch prosessi mittakaavassa
  • Tallenna digitoitu tulos joustavissa muodoissa (tekst, Word, PDF)

Parhaat käytännöt

  • Validoi tulos alkuperäisillä sivuilla tarkkuuden vuoksi
  • Järjestä kirjan sivuja kokoon ja luvun mukaan helppokäyttöisyydelle
  • Varmuuskopioi sekä skannat että digitoitu teksti
  • OCR-moottori päivitetään uusimmille parannuksille

Edistyneet skenaariot

Käsikirja 1: Monikielisten aikakauslehden digitointi

settings.Language = Language.German;

Käsikirjoitus 2: PDF:n vienti eBook-lukijoille

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

johtopäätöksiä

Aspose.OCR for .NET on nopein tapa tuoda kirjoja ja monimutkaisia julkaisuja digitaalisen aikakauden, valmis hakemaan, analysoimaan ja jakamaan.

Katso lisää esimerkkejä ja integraation vinkkejä ASPOSE.OCR .NET API-referenssille .

 Suomi