Kuinka digitalisoida kirjoja ja monikerroksisia asiakirjoja Aspose.OCR:llä
Kirjojen ja aikakauslehden skannaaminen tai valokuvaaminen johtaa usein monimutkaisiin, monikerroksisiin kuviin, jotka vaativat standardin OCR:tä. Aspose.OCR for .NET tarjoaa kehittyneitä asetuksia, joilla voidaan luotettavasti poistaa rakenteellista, sarjakuvaista tekstiä, joka on ihanteellinen kirjastoihin, tutkimukseen ja julkaisuun.
Reaalimaailman ongelma
Kirjat, sanomalehdet ja toimitukset tallennetaan usein skannattuina kuvissa, joissa on sarakkeita, huomautuksia ja kuvioita. lukemattoman, rakenteellisen tekstin poistaminen manuaalisesti on hidasta, virheellistä ja kalliita kirjastoille tai arkistoille.
Ratkaisun yleiskatsaus
Aspose.OCR for .NET käsittelee monikerroksisia ja monimutkaisia järjestelyjä, säilyttää lukemisen järjestyksen ja sallii kirjojen ja aikakauslehden massiivisen digitalisoinnin, säästää aikaa ja parantaa tiedon tarkkuutta tutkijoille ja julkaisuille.
edellytykset
Varmista, että sinulla on:
- Visual Studio 2019 tai uudempi
- .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET alkaen NuGet
- Tärkeimmät C#-taidot
PM> Install-Package Aspose.OCR
Vaiheittainen toteutus
Vaihe 1: Asenna ja asenna Aspose.OCR
using Aspose.OCR;
Vaihe 2: Tarkista tai valokuvaa kirjan/lehden sivuja
Lisää kaikki skannattujen sivun kuvien sisällön batch tunnistamiseen.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
Vaihe 3: Määritä monikerroksinen tunnistusasetukset
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts
Vaihe 4: Poista teksti rakenteellisessa järjestyksessä
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Vaihe 5: Digitaalisen tekstin vienti tai tallennus
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text); // Save as text
result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}
Vaihe 6: Lisää virheiden käsittely ja laadun tarkastukset
try
{
// OCR and export code
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Vaihe 7: Optimoi joukko- tai harvinaisia kirjoja
- Batch käsittelee kaikkia kirjan sivuja lomakkeissa
- Käytä korkean tason skannauksia harvinaisiin tai vanhoihin kirjoihin
- Validoi näytteen sivu ennen koko keräyksen suorittamista
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
input.Add(file);
}
Vaihe 8: Täydellinen esimerkki
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text);
result.Save("book_page.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Käytä tapauksia ja sovelluksia
Kirjastot ja digitaalinen ihmiskunta
Mahdollistaa harvinaisten kirjojen ja historiallisten sanomalehtien digitaalisen lainaamisen, hakemisen ja analysoinnin.
Akateeminen ja tutkimusjulkaisu
Helppo digitoida lehtiä, konferenssikäsityksiä tai tekstikirjoja sähköiseen pääsyyn.
Monikieliset ja monimutkaiset asetukset
Poista sisältö ajakirjoista, joissa on vieraan kielen sarakkeita, sivuja tai huomautuksia.
Yhteiset haasteet ja ratkaisut
Haaste 1: Ei kolumneja tai kuvioita
** Ratkaisu:** Käytä laadukkaita skannauksia ja testaa DOCUMENT/AUTO -tilauksia parhaaseen lukemiseen.
Haaste 2: OCR-laatu vanhoille tai vaurioituneille kirjoille
** Ratkaisu:** Parantaa skannauksia ja vahvista tuloksia ennen massan käsittelyä.
Haaste 3: Massive Scale Digitization
** Ratkaisu:** Automaattiset työvirrat ja käytä virheiden käsittelyä laajamittaisiin toimintoihin.
suorituskyvyn huomioon ottaminen
- Käytä hyviä lähteitä, erityisesti harvinaisia tai hauraita kirjoja
- Batch prosessi mittakaavassa
- Tallenna digitoitu tulos joustavissa muodoissa (tekst, Word, PDF)
Parhaat käytännöt
- Validoi tulos alkuperäisillä sivuilla tarkkuuden vuoksi
- Järjestä kirjan sivuja kokoon ja luvun mukaan helppokäyttöisyydelle
- Varmuuskopioi sekä skannat että digitoitu teksti
- OCR-moottori päivitetään uusimmille parannuksille
Edistyneet skenaariot
Käsikirja 1: Monikielisten aikakauslehden digitointi
settings.Language = Language.German;
Käsikirjoitus 2: PDF:n vienti eBook-lukijoille
foreach (RecognitionResult result in results)
{
result.Save("book_page.pdf", SaveFormat.Pdf);
}
johtopäätöksiä
Aspose.OCR for .NET on nopein tapa tuoda kirjoja ja monimutkaisia julkaisuja digitaalisen aikakauden, valmis hakemaan, analysoimaan ja jakamaan.
Katso lisää esimerkkejä ja integraation vinkkejä ASPOSE.OCR .NET API-referenssille .