Як витягти текст з сканованих зображень за допомогою Aspose.OCR

Як витягти текст з сканованих зображень за допомогою Aspose.OCR

Сканування контрактів, угод, книжкових сторінок, або старих записів зазвичай виробляє зображення файлів — не редагується текст. Aspose.OCR сканувати до тексту для .NET дозволяє автоматизувати вилучення структурованого, пошукованого тексту з будь-якого сканованого документа або фото, заощаджуючи безліч годин ручного входу.

Реальні проблеми світу

Витяг їх контенту для цифрових робочих потоків, відповідності або досліджень може бути повільним, дорогим і схильним до помилок, якщо це зроблено вручну.

Огляд рішення

Aspose.OCR сканує до тексту для .NET конвертує зображення друкованих сторінок в використаний текст, обробляє односторонні, багатосторінні та складні розташування. робочий потік ідеально підходить для цифровизації контрактів, книг, записів та бізнес-документів для сучасного використання.

Передумови

Переконайтеся, що у вас є:

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET від NuGet
  • Основні знання C#
PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Завантажити та встановити Aspose.OCR

Додайте пакет NuGet та посилання Aspose.OCR:

using Aspose.OCR;

Крок 2: Додайте свої скановані зображення

Завантажити один або кілька файлів зображення для обробки.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Крок 3: Налаштування налаштувань пізнання

Налаштуйте для мови та оформлення документів, як це необхідно.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Крок 4: Виконайте процес визнання

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Крок 5: Зберегти або обробляти витягнутий текст

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Крок 6: Використання помилок

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Крок 7: Оптимізація оформлення документів

  • Для книг або статей, використовуйте DetectAreasMode.DOCUMENT або спробуйте ДетекАreasМод.АУТО
  • Препроцесовані зображення (рослини, сміття) для кращої точності
  • Процес обробки для великих архівів
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Крок 8: Повний приклад

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Використання випадків та додатків

Контракт і договір цифровизації

Швидко цифрувати юридичні або бізнес-документи для пошуку, архівування та цифрових робочих потоків.

Книга та архіви обробки

Конвертуйте сторінки книг або історичні записи в пошукові, редагувальні формати.

Відповідність та вилучення даних

Забезпечує автоматичні перевірки відповідності, аудит або текстове вилучення з документів спадщини.

Спільні виклики та рішення

Виклик 1: Низька якість сканування або знешкоджений текст

Рішення: Використовуйте попереднє обробку або покращуйте зображення для кращої точності OCR.

Виклик 2: багатоколонні або комплексні розташування

Рішення: Налаштуйте DetectAreasMode і випробуйте для кращого обробки розташування.

Виклик 3: Батч цифровизація

Рішення: Використовуйте обробку пакетів та управління ресурсами для великих робочих місць.

Виконання розглядів

  • Бетч-процес для швидкості та скалативності
  • Використовуйте якісні джерельні зображення
  • Використання об’єктів ОКР після використання

Найкращі практики

  • Завжди підтверджуйте витягнутий текст перед автоматизацією або архівуванням
  • Використовуйте правильні налаштування розпізнавання для типу документа
  • Завантажити оригінальні скани для посилання
  • Результати тестування OCR на випробувальній групі перед виробництвом

Розширені сценарії

Сценарій 1: Витяг багатомовних документів

settings.Language = Language.French;

Сценарій 2: Експорт до JSON для інтеграції

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Заключення

Aspose.OCR Сканування до тексту для .NET є найшвидшим способом перетворення сканованих зображень і паперових документів в корисний, редагувальний текст – ідеально підходить для юридичних, академічних або корпоративних проектів.

Більше прикладів та технічних деталей у Aspose.OCR для .NET API Референт .

 Українська