Как да извлечете текст от сканираните изображения с Aspose.OCR

Скенирането на договори, споразумения, книги страници или стари записи обикновено произвежда файлове с изображения – не редактиращ текст. Aspose.OCR Scan to Text for .NET ви позволява да автоматизирате извличането на структуриран, търсим текст от който и да е скенирания документ или снимка, спестявайки безброй часове на ръчен вход.

Реални световни проблеми

Папирните документи, книгите и архивите често се съхраняват като изображения. Извличането на тяхното съдържание за цифрови работни потоци, съответствие или изследвания може да бъде бавно, скъпо и вероятно да греши, ако се направи ръчно.

Преглед на решението

Aspose.OCR Скениране на текст за .NET конвертира изображенията на печатните страници в полезен текст, обработка на единична колона, много колони и сложни оформления. Работният поток е идеален за дигитализация на договори, книги, записи и бизнес документи за съвременна употреба.

Предупреждения

Уверете се, че имате:

Visual Studio 2019 или по-късно
.NET 6.0 или по-късно (или .NET Framework 4.6.2+)
Aspose.OCR за .NET от NuGet
Основни познания за C

PM> Install-Package Aspose.OCR

Стъпка по стъпка изпълнение

Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR

Добавете пакета NuGet и референт Aspose.OCR:

using Aspose.OCR;

Стъпка 2: Добавете сканираните изображения

Изтеглете един или няколко изображения, за да бъдат обработени.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Стъпка 3: Настройване на настройките за разпознаване

Туниране на езика и оформлението на документа, както е необходимо.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Стъпка 4: Извършете процеса на признаване

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Стъпка 5: Съхраняване или обработка на извлечения текст

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Стъпка 6: Добавете обработка на грешки

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Стъпка 7: Оптимизиране на оформлението на документи

За книги или статии, използвайте DetectAreasMode.DOCUMENT или опитайте DetecTrea.AUTO
Препроцесиране на изображения (плодове, дескеви) за най-добра точност
Батч процес за големи архиви

foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Стъпка 8: Допълнителен пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Използване на случаи и приложения

Договор и споразумение за дигитализация

Бързо цифровизиране на правни или бизнес документи за търсене, архивиране и дигитални работни потоци.

Обработка на книги и архиви

Конвертирайте страници от книги или исторически записи в търсещи, редактиращи формати.

Съответствие и извличане на данни

Осигуряване на автоматизирани проверки на съответствието, одитиране или извличане на текст от документи за наследство.

Съвместни предизвикателства и решения

Предизвикателство 1: Скениране с ниско качество или изчерпателен текст

Решение: Използвайте предварително обработване или подобряване на изображения за по-добра точност на OCR.

Предизвикателство 2: Multi-Column или Complex Layouts

Решение: Настройване на DetectAreasMode и тестване за най-добро управление на оформлението.

Предизвикателство 3: Батч дигитализация

Решение: Използвайте обработката на комплекти и управлението на ресурсите за големи работни места.

Преглед на изпълнението

Процесът на бач за скорост и скалабилност
Използвайте качествени източници на изображения
Използване на OCR предмети след употреба

Най-добрите практики

Винаги валидирайте извлечения текст преди автоматизиране или архивиране
Използвайте правилните настройки за разпознаване на типа на документа
Оригинални сканиране за референтност
Резултатите от теста на OCR върху шаблон преди производството

Разширени сценарии

Сценарий 1: Многоезична екстракция на документи

settings.Language = Language.French;

Сценарий 2: Износ към JSON за интеграция

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

заключение

Aspose.OCR Скениране на текст за .NET е най-бързият начин да се конвертират скенираните изображения и хартиени документи в полезен, редактируем текст – идеален за правни, академични или корпоративни проекти.

Вижте повече примери и технически подробности в Aspose.OCR за .NET API Референт .