Как цифровизировать книги и мультиколонные документы с помощью Aspose.OCR
Скенирование или фотографирование книг и журналов часто приводит к сложным, многосторонним изображениям – вызову стандартного OCR. Aspose.OCR для .NET обеспечивает передовые настройки для надежного извлечения структурированного, колонообразного текста, идеального для библиотек, исследований и публикаций.
Реальные мировые проблемы
Книги, газеты и журналы часто хранятся в качестве сканированных изображений с колоннами, нотами и иллюстрациями.Извлечение читаемого, структурированного текста вручную медленно, без ошибок и дорого для библиотеки или архивов.
Решение обзор
ASPOSE.OCR для .NET справляется с многослойными и сложными расположениями, сохраняет порядок чтения и позволяет автоматизировать массовую цифровизацию книг и журналов, экономит время и улучшает точность данных для исследователей и издателей.
Предупреждения
Убедитесь, что у вас есть:
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET от NuGet
- Основные навыки C#
PM> Install-Package Aspose.OCR
Step-by-Step реализация
Шаг 1: Инсталляция и настройка Aspose.OCR
using Aspose.OCR;
Шаг 2: Сканировать или фотографировать страницы вашей книги / журнала
Добавьте все сканированные страничные изображения к вашему входу для распознавания бач.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
Шаг 3: Настройка распознавания множества колонн
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts
Шаг 4: Экстракт текста в структурированном порядке
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Шаг 5: Экспорт или сохранение цифрового текста
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text); // Save as text
result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}
Шаг 6: Добавить Управление ошибками и проверки качества
try
{
// OCR and export code
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Шаг 7: Оптимизация для больших или редких книг
- Батч обрабатывает все страницы книг в папках
- Используйте сканирование высокого уровня для редких или старых книг
- Проверьте страницу образца перед выполнением всей коллекции
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
input.Add(file);
}
Шаг 8: Полный пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text);
result.Save("book_page.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Используйте случаи и приложения
Библиотеки и цифровые человечества
Умение цифрового кредитования, поиска и анализа редких книг и исторических газет.
Академическая и исследовательская публикация
Легко цифровывать журналы, конференц-процессы или текстовые книги для электронного доступа.
Многоязычные и сложные расположения
Экстрактируйте контент из журналов с иностранными языковыми колоннами, страничками или нотами.
Общие вызовы и решения
Задача No1: Недостаток колонн или иллюстраций
Решение: Используйте высококачественные сканирования и тестируйте режимы DOCUMENT/AUTO для наилучшего заказа чтения.
Проблема 2: ОКР качество для старых или поврежденных книг
Решение: Улучшите сканирование и подтвердите результаты перед массовой обработкой.
Проблема 3: Массивная масштабная цифровизация
Решение: Автоматизируйте рабочие потоки и используйте обработку ошибок для крупномасштабных операций.
Рассмотрим производительность
- Используйте хорошие сканировки источника, особенно для редких или хрупких книг.
- Батч-процесс для масштаба
- Сохранение цифровых выходов в гибких форматах (текст, Word, PDF)
Лучшие практики
- Валидировать выход по сравнению с оригинальными страницами для точности
- Организуйте страницы книг по объему и главе для легкого восстановления
- Откройте как сканирование, так и цифровой текст
- Обновление двигателя OCR для последних улучшений
Развитые сценарии
Сценарий 1: Дигитализация многоязычных журналов
settings.Language = Language.German;
Сценарий 2: Экспорт в PDF для читателей электронных книг
foreach (RecognitionResult result in results)
{
result.Save("book_page.pdf", SaveFormat.Pdf);
}
Заключение
ASPOSE.OCR для .NET является самым быстрым способом ввести книги и сложные публикации в цифровую эпоху, готовые к поиску, анализу и обмену.
Смотреть дополнительные примеры и советы по интеграции в ASPOSE.OCR для .NET API .