Як цифровувати книги та багатоколонні документи за допомогою Aspose.OCR

Сканування або фотографії книг і журналів часто призводять до складних, багатосторонніх зображень, що викликають стандартний OCR. Aspose.OCR для .NET забезпечує передові налаштування для надійного вилучення структурованого, колоноординованого тексту, ідеального для бібліотек, досліджень і публікацій.

Реальні проблеми світу

Книги, газети і журнали часто зберігаються як скановані зображення з колонами, нотами і ілюстраціями. Витяг читаючого, структурованого тексту вручну повільний, без помилок і дорогий для бібліотек або архівів.

Огляд рішення

Aspose.OCR для .NET керує багатоколонними та складними розташуваннями, зберігаючи порядок читання і дозволяючи вам автоматизувати масову цифровизацію книг і журналів, заощаджуючи час і покращуючи точність даних для дослідників і видавників.

Передумови

Переконайтеся, що у вас є:

Visual Studio 2019 або вище
.NET 6.0 або вище (або .NET Framework 4.6.2+)
Aspose.OCR для .NET від NuGet
Основні навички C

PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Завантажити та встановити Aspose.OCR

using Aspose.OCR;

Крок 2: Скануйте або зніміть сторінки книги / журналу

Додайте всі скановані сторінкові зображення до вашого входу для розпізнавання комплекту.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

Крок 3: Налаштування налаштувань розпізнавання кількох стовпів

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

Крок 4: Витяг тексту в структурованому порядку

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Крок 5: Експорт або збереження цифрового тексту

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

Крок 6: Додайте обробку помилок та перевірки якості

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Крок 7: Оптимізація для масових або рідкісних книг

Батч обробляє всі сторінки книг у папках
Використовуйте високоякісні скани для рідкісних або старих книг
Визначте сторінку зразка, перш ніж запустити повну колекцію

foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

Крок 8: Повний приклад

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Використання випадків та додатків

Бібліотеки та цифрові людства

Сприяти цифровим кредитуванням, пошуку та аналізу рідкісних книг та історичних газет.

Академічна та науково-дослідна публікація

Легко цифровувати журнали, конференц-процеси або текстові книги для електронного доступу.

Мултимовні та комплексні схеми

Витяг контенту з журналів з колонками іноземної мови, сторінками або нотами.

Спільні виклики та рішення

Виклик 1: Не виключаючи стовпів або ілюстрацій

Рішення: Використовуйте високоякісні скани і випробуйте режими DOCUMENT/AUTO для кращого замовлення читання.

Виклик 2: ОКР якість для старих або пошкоджених книг

Рішення: Підвищує сканування і підтверджує результати перед масовою обробкою.

Виклик 3: Масивна масштабна цифровизація

Рішення: Автоматизуйте робочі потоки і використовуйте обробку помилок для великих операцій.

Виконання розглядів

Використовуйте хороші джерельні скани, особливо для рідкісних або крхких книг
Батч-процес для масштабів
Зберігати цифрову продукцію в гнучких форматах (текст, Word, PDF)

Найкращі практики

Використання оригінальних сторінок для точності
Організація книжкових сторінок за обсягом та розділом для легкого відновлення
Завантажити як сканування, так і цифровий текст
Оновлення двигуна OCR для останніх поліпшень

Розширені сценарії

Сценарій 1: Дигиталізація багатомовних журналів

settings.Language = Language.German;

Сценарій 2: Експорт до PDF для читачів електронних книг

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

Заключення

Aspose.OCR для .NET є найшвидшим способом принести книги та складні публікації в цифровий вік, готові до пошуку, аналізу та обміну.

Переглянути додаткові приклади та рекомендації щодо інтеграції в Aspose.OCR для .NET API Референт .