Как извлечь текст из сканированных изображений с помощью Aspose.OCR

Как извлечь текст из сканированных изображений с помощью Aspose.OCR

Сканирование контрактов, соглашений, страниц книг или старых записей обычно производит изобразительные файлы — не редактируемый текст. Aspose.OCR Scan to Text for .NET позволяет автоматизировать извлечение структурированного, поискового текста из любого скенируемого документа или фотографии, сэкономив бесчисленные часы ручного ввода.

Реальные мировые проблемы

Паперовые документы, книги и архивы часто хранятся в виде изображений. Экстракция их контента для цифровых рабочих потоков, соответствия или исследований может быть медленной, дорогой и подвержен ошибке, если это сделано вручную.

Решение обзор

ASPOSE.OCR Scan to Text for .NET конвертирует изображения напечатанных страниц в используемый текст, обрабатывает односторонние, многостороны и сложные расположения. Рабочий поток идеально подходит для цифровизации контрактов, книг, записей и бизнес-документов для современного использования.

Предупреждения

Убедитесь, что у вас есть:

  • Visual Studio 2019 или позднее
  • .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET от NuGet
  • Основное знание C#
PM> Install-Package Aspose.OCR

Step-by-Step реализация

Шаг 1: Инсталляция и настройка Aspose.OCR

Добавьте пакет NuGet и ссылку Aspose.OCR:

using Aspose.OCR;

Шаг 2: Добавьте сканированные изображения

Загрузите одно- или несколько файлов изображения для обработки.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Шаг 3: Установите настройки распознавания

Тонус для языка документа и расположения, как это необходимо.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Шаг 4: Продолжайте процесс признания

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Шаг 5: Сохранение или обработка извлеченного текста

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Шаг 6: Добавить обработку ошибок

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Шаг 7: Оптимизация оформления документов

  • Для книг или статей используйте DetectAreasMode.DOCUMENT или попробуйте ДетекАреасМоде.АВТО
  • Препроцессуальные изображения (рост, дескев) для наилучшей точности
  • Батч-процесс для больших архивов
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Шаг 8: Полный пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Используйте случаи и приложения

Договор и дигитализация соглашений

Быстро цифровизируйте юридические или деловые документы для поиска, архивирования и цифровых рабочих потоков.

Обработка книг и архивов

Конвертируйте страницы книг или исторические записи в поисковые, редактируемые форматы.

Соответствие и извлечение данных

Возможна автоматическая проверка соответствия, аудит или текстовое извлечение из документов наследия.

Общие вызовы и решения

Проблема 1: низкокачественные сканировки или фальсифицированный текст

Решение: Используйте предварительную обработку или улучшите изображения для лучшей точности ОКР.

Challenge 2: Multi-Column или Complex Layouts

Решение: Настройка DetectAreasMode и тестирование для лучшей обработки расположения.

Проблема 3: Батч цифровизация

Решение: Используйте обработку комплектов и управление ресурсами для больших рабочих мест.

Рассмотрим производительность

  • Процесс батареи для скорости и масштабируемости
  • Используйте качественные источники изображений
  • Установка ОКР-объектов после использования

Лучшие практики

  • Всегда проверяйте полученный текст перед автоматизацией или архивированием
  • Используйте правильные настройки распознавания для типа документа
  • Оригинальное сканирование для ссылок
  • Результаты тестирования ОКР на пробном комплекте перед производством

Развитые сценарии

Сценарий 1: Многоязычная экстракция документов

settings.Language = Language.French;

Сценарий 2: Экспорт в JSON для интеграции

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Заключение

ASPOSE.OCR Scan to Text для .NET является самым быстрым способом конвертировать сканированные изображения и бумажные документы в полезный, редактируемый текст — идеальный для юридических, академических или корпоративных проектов.

Больше примеров и технических деталей в ASPOSE.OCR для .NET API .

 Русский