Как цифровизировать книги и мультиколонные документы с помощью Aspose.OCR

Как цифровизировать книги и мультиколонные документы с помощью Aspose.OCR

Скенирование или фотографирование книг и журналов часто приводит к сложным, многосторонним изображениям – вызову стандартного OCR. Aspose.OCR для .NET обеспечивает передовые настройки для надежного извлечения структурированного, колонообразного текста, идеального для библиотек, исследований и публикаций.

Реальные мировые проблемы

Книги, газеты и журналы часто хранятся в качестве сканированных изображений с колоннами, нотами и иллюстрациями.Извлечение читаемого, структурированного текста вручную медленно, без ошибок и дорого для библиотеки или архивов.

Решение обзор

ASPOSE.OCR для .NET справляется с многослойными и сложными расположениями, сохраняет порядок чтения и позволяет автоматизировать массовую цифровизацию книг и журналов, экономит время и улучшает точность данных для исследователей и издателей.

Предупреждения

Убедитесь, что у вас есть:

  • Visual Studio 2019 или позднее
  • .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET от NuGet
  • Основные навыки C#
PM> Install-Package Aspose.OCR

Step-by-Step реализация

Шаг 1: Инсталляция и настройка Aspose.OCR

using Aspose.OCR;

Шаг 2: Сканировать или фотографировать страницы вашей книги / журнала

Добавьте все сканированные страничные изображения к вашему входу для распознавания бач.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

Шаг 3: Настройка распознавания множества колонн

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

Шаг 4: Экстракт текста в структурированном порядке

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Шаг 5: Экспорт или сохранение цифрового текста

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

Шаг 6: Добавить Управление ошибками и проверки качества

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Шаг 7: Оптимизация для больших или редких книг

  • Батч обрабатывает все страницы книг в папках
  • Используйте сканирование высокого уровня для редких или старых книг
  • Проверьте страницу образца перед выполнением всей коллекции
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

Шаг 8: Полный пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Используйте случаи и приложения

Библиотеки и цифровые человечества

Умение цифрового кредитования, поиска и анализа редких книг и исторических газет.

Академическая и исследовательская публикация

Легко цифровывать журналы, конференц-процессы или текстовые книги для электронного доступа.

Многоязычные и сложные расположения

Экстрактируйте контент из журналов с иностранными языковыми колоннами, страничками или нотами.

Общие вызовы и решения

Задача No1: Недостаток колонн или иллюстраций

Решение: Используйте высококачественные сканирования и тестируйте режимы DOCUMENT/AUTO для наилучшего заказа чтения.

Проблема 2: ОКР качество для старых или поврежденных книг

Решение: Улучшите сканирование и подтвердите результаты перед массовой обработкой.

Проблема 3: Массивная масштабная цифровизация

Решение: Автоматизируйте рабочие потоки и используйте обработку ошибок для крупномасштабных операций.

Рассмотрим производительность

  • Используйте хорошие сканировки источника, особенно для редких или хрупких книг.
  • Батч-процесс для масштаба
  • Сохранение цифровых выходов в гибких форматах (текст, Word, PDF)

Лучшие практики

  • Валидировать выход по сравнению с оригинальными страницами для точности
  • Организуйте страницы книг по объему и главе для легкого восстановления
  • Откройте как сканирование, так и цифровой текст
  • Обновление двигателя OCR для последних улучшений

Развитые сценарии

Сценарий 1: Дигитализация многоязычных журналов

settings.Language = Language.German;

Сценарий 2: Экспорт в PDF для читателей электронных книг

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

Заключение

ASPOSE.OCR для .NET является самым быстрым способом ввести книги и сложные публикации в цифровую эпоху, готовые к поиску, анализу и обмену.

Смотреть дополнительные примеры и советы по интеграции в ASPOSE.OCR для .NET API .

 Русский