Как да извлечете текст от сканираните изображения с Aspose.OCR

Как да извлечете текст от сканираните изображения с Aspose.OCR

Скенирането на договори, споразумения, книги страници или стари записи обикновено произвежда файлове с изображения – не редактиращ текст. Aspose.OCR Scan to Text for .NET ви позволява да автоматизирате извличането на структуриран, търсим текст от който и да е скенирания документ или снимка, спестявайки безброй часове на ръчен вход.

Реални световни проблеми

Папирните документи, книгите и архивите често се съхраняват като изображения. Извличането на тяхното съдържание за цифрови работни потоци, съответствие или изследвания може да бъде бавно, скъпо и вероятно да греши, ако се направи ръчно.

Преглед на решението

Aspose.OCR Скениране на текст за .NET конвертира изображенията на печатните страници в полезен текст, обработка на единична колона, много колони и сложни оформления. Работният поток е идеален за дигитализация на договори, книги, записи и бизнес документи за съвременна употреба.

Предупреждения

Уверете се, че имате:

  • Visual Studio 2019 или по-късно
  • .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
  • ASPOSE.OCR за .NET от NuGet
  • Основни познания за C#
PM> Install-Package Aspose.OCR

Стъпка по стъпка изпълнение

Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR

Добавете пакета NuGet и референт Aspose.OCR:

using Aspose.OCR;

Стъпка 2: Добавете сканираните изображения

Изтеглете един или няколко изображения, за да бъдат обработени.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Стъпка 3: Настройване на настройките за разпознаване

Туниране на езика и оформлението на документа, както е необходимо.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Стъпка 4: Извършете процеса на признаване

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Стъпка 5: Съхраняване или обработка на извлечения текст

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Стъпка 6: Добавете обработка на грешки

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Стъпка 7: Оптимизиране на оформлението на документи

  • За книги или статии, използвайте DetectAreasMode.DOCUMENT или опитайте DetecTrea.AUTO
  • Препроцесиране на изображения (плодове, дескеви) за най-добра точност
  • Батч процес за големи архиви
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Стъпка 8: Допълнителен пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Използване на случаи и приложения

Договор и споразумение за дигитализация

Бързо цифровизиране на правни или бизнес документи за търсене, архивиране и дигитални работни потоци.

Обработка на книги и архиви

Конвертирайте страници от книги или исторически записи в търсещи, редактиращи формати.

Съответствие и извличане на данни

Осигуряване на автоматизирани проверки на съответствието, одитиране или извличане на текст от документи за наследство.

Съвместни предизвикателства и решения

Предизвикателство 1: Скениране с ниско качество или изчерпателен текст

Решение: Използвайте предварително обработване или подобряване на изображения за по-добра точност на OCR.

Предизвикателство 2: Multi-Column или Complex Layouts

Решение: Настройване на DetectAreasMode и тестване за най-добро управление на оформлението.

Предизвикателство 3: Батч дигитализация

Решение: Използвайте обработката на комплекти и управлението на ресурсите за големи работни места.

Преглед на изпълнението

  • Процесът на бач за скорост и скалабилност
  • Използвайте качествени източници на изображения
  • Използване на OCR предмети след употреба

Най-добрите практики

  • Винаги валидирайте извлечения текст преди автоматизиране или архивиране
  • Използвайте правилните настройки за разпознаване на типа на документа
  • Оригинални сканиране за референтност
  • Резултатите от теста на OCR върху шаблон преди производството

Разширени сценарии

Сценарий 1: Многоезична екстракция на документи

settings.Language = Language.French;

Сценарий 2: Износ към JSON за интеграция

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

заключение

Aspose.OCR Скениране на текст за .NET е най-бързият начин да се конвертират скенираните изображения и хартиени документи в полезен, редактируем текст – идеален за правни, академични или корпоративни проекти.

Вижте повече примери и технически подробности в Aspose.OCR за .NET API Референт .

 Български