Hogyan lehet digitalizálni könyveket és több oszlopos dokumentumokat az Aspose.OCR segítségével

Hogyan lehet digitalizálni könyveket és több oszlopos dokumentumokat az Aspose.OCR segítségével

A könyvek és magazinok szkennelése vagy fényképezése gyakran bonyolult, több oszlopos képeket eredményez – a szabványos OCR-t kihívják.Aspose.OCR for .NET fejlett beállításokat biztosít a könyvtárak, kutatások és kiadványok számára ideális szisztematikusan szerkezetbe sorolt szöveg kivonására.

Valódi problémák

A könyvek, újságok és folyóiratok gyakran szkennelt képeként tárolódnak oszlopokkal, lábjegyzékekkel és illusztrációkkal. olvasható, strukturált szöveg kézzel történő kivonása lassú, hibás és költséges a könyvtárak vagy archívumok számára.

megoldás áttekintése

Az Aspose.OCR a .NET számára több oszlopos és összetett elrendezéseket kezel, az olvasási rend megőrzése és a könyvek és magazinok tömeges digitalizációjának automatizálása, időt takarít meg és javítja az adatok pontosságát a kutatók és kiadók számára.

előfeltételek

Győződjön meg róla, hogy van:

  • Visual Studio 2019 vagy újabb
  • .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET a NuGet-ről
  • Alapvető C# készségek
PM> Install-Package Aspose.OCR

lépésről lépésre megvalósítás

1. lépés: Az Aspose.OCR telepítése és konfigurálása

using Aspose.OCR;

2. lépés: A könyv / magazin oldalak szkennelése vagy fényképezése

Adja meg az összes szkennelt oldalképet a betűbe a batch felismeréshez.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

3. lépés: Állítsa be a több oszlopos felismerési beállításokat

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

4. lépés: A szöveg kivonása strukturált sorrendben

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5. lépés: Digitalizált szöveg exportálása vagy mentése

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

6. lépés: Hibaelhárítás és minőségellenőrzések hozzáadása

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7. lépés: Optimalizálja a tömeges vagy ritka könyveket

  • Batch feldolgozza az összes könyves oldalt mappákban
  • Használjon magas színű szkennelést ritka vagy régi könyvekhez
  • Ellenőrizze a minta oldalt, mielőtt teljes gyűjteményt futtatna
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

8. lépés: Teljes példa

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Esetek és alkalmazások használata

Könyvtárak és digitális emberiségek

Lehetővé teszi a ritka könyvek és történelmi újságok digitális hitelezését, keresését és elemzését.

Akadémiai és kutatási kiadvány

Könnyedén digitalizálja az újságokat, a konferencia eljárásokat vagy a szövegkönyvek elektronikus hozzáféréshez.

Többnyelvű és összetett elrendezések

Tartalom kivonása idegen nyelvű oszlopokkal, oldaljelzőkkel vagy lábjegyzékekkel rendelkező folyóiratokból.

Közös kihívások és megoldások

1. kihívás: A gyűrűk és az illusztrációk nélkül

** Megoldás:** Használjon kiváló minőségű szkennelést, és tesztelje a DOCUMENT/AUTO módokat a legjobb olvasási rendhez.

2. kihívás: Az OCR minősége a régi vagy sérült könyvekhez

** Megoldás:** Javítja a szkennelést és validálja az eredményeket a tömegfeldolgozás előtt.

3. kihívás: Massive Scale Digitalization

** Megoldás:** Automatizálja a munkafolyamatokat és használja a hibaelhárítást a nagyszabású műveletekhez.

A teljesítmény megfontolása

  • Használjon jó forrás szkennelést, különösen ritka vagy törékeny könyvek esetén
  • Batch folyamat a skálán
  • A digitalizált kiadásokat rugalmas formátumban tárolja (szöveg, Word, PDF)

Legjobb gyakorlatok

  • Validálja a kimenetet az eredeti oldalakkal szemben a pontosság érdekében
  • Szervezzen könyves oldalakat térfogat és fejezet szerint a könnyű visszaküldéshez
  • Mind a szkennelés, mind a digitalizált szöveg
  • Az OCR motor frissítése a legújabb fejlesztésekhez

fejlett forgatókönyvek

1. forgatókönyv: Többnyelvű magazinok digitalizálása

settings.Language = Language.German;

2. forgatókönyv: PDF-re exportálás az eBook olvasók számára

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

következtetések

Az ASPOSE.OCR a .NET számára a leggyorsabb módja annak, hogy könyveket és összetett kiadványokat hozzon a digitális korszakba, készen a keresésre, elemzésre és megosztásra.

Lásd további példákat és integrációs tippeket a Az ASPOSE.OCR a .NET API referenciájához .

 Magyar