Як витягти текст з сканованих зображень за допомогою Aspose.OCR

Сканування контрактів, угод, книжкових сторінок, або старих записів зазвичай виробляє зображення файлів — не редагується текст. Aspose.OCR сканувати до тексту для .NET дозволяє автоматизувати вилучення структурованого, пошукованого тексту з будь-якого сканованого документа або фото, заощаджуючи безліч годин ручного входу.

Реальні проблеми світу

Витяг їх контенту для цифрових робочих потоків, відповідності або досліджень може бути повільним, дорогим і схильним до помилок, якщо це зроблено вручну.

Огляд рішення

Aspose.OCR сканує до тексту для .NET конвертує зображення друкованих сторінок в використаний текст, обробляє односторонні, багатосторінні та складні розташування. робочий потік ідеально підходить для цифровизації контрактів, книг, записів та бізнес-документів для сучасного використання.

Передумови

Переконайтеся, що у вас є:

Visual Studio 2019 або вище
.NET 6.0 або вище (або .NET Framework 4.6.2+)
Aspose.OCR для .NET від NuGet
Основні знання C

PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Завантажити та встановити Aspose.OCR

Додайте пакет NuGet та посилання Aspose.OCR:

using Aspose.OCR;

Крок 2: Додайте свої скановані зображення

Завантажити один або кілька файлів зображення для обробки.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Крок 3: Налаштування налаштувань пізнання

Налаштуйте для мови та оформлення документів, як це необхідно.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Крок 4: Виконайте процес визнання

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Крок 5: Зберегти або обробляти витягнутий текст

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Крок 6: Використання помилок

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Крок 7: Оптимізація оформлення документів

Для книг або статей, використовуйте DetectAreasMode.DOCUMENT або спробуйте ДетекАreasМод.АУТО
Препроцесовані зображення (рослини, сміття) для кращої точності
Процес обробки для великих архівів

foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Крок 8: Повний приклад

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Використання випадків та додатків

Контракт і договір цифровизації

Швидко цифрувати юридичні або бізнес-документи для пошуку, архівування та цифрових робочих потоків.

Книга та архіви обробки

Конвертуйте сторінки книг або історичні записи в пошукові, редагувальні формати.

Відповідність та вилучення даних

Забезпечує автоматичні перевірки відповідності, аудит або текстове вилучення з документів спадщини.

Спільні виклики та рішення

Виклик 1: Низька якість сканування або знешкоджений текст

Рішення: Використовуйте попереднє обробку або покращуйте зображення для кращої точності OCR.

Виклик 2: багатоколонні або комплексні розташування

Рішення: Налаштуйте DetectAreasMode і випробуйте для кращого обробки розташування.

Виклик 3: Батч цифровизація

Рішення: Використовуйте обробку пакетів та управління ресурсами для великих робочих місць.

Виконання розглядів

Бетч-процес для швидкості та скалативності
Використовуйте якісні джерельні зображення
Використання об’єктів ОКР після використання

Найкращі практики

Завжди підтверджуйте витягнутий текст перед автоматизацією або архівуванням
Використовуйте правильні налаштування розпізнавання для типу документа
Завантажити оригінальні скани для посилання
Результати тестування OCR на випробувальній групі перед виробництвом

Розширені сценарії

Сценарій 1: Витяг багатомовних документів

settings.Language = Language.French;

Сценарій 2: Експорт до JSON для інтеграції

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Заключення

Aspose.OCR Сканування до тексту для .NET є найшвидшим способом перетворення сканованих зображень і паперових документів в корисний, редагувальний текст – ідеально підходить для юридичних, академічних або корпоративних проектів.

Більше прикладів та технічних деталей у Aspose.OCR для .NET API Референт .