Како извући текст из скенираних слика са Aspose.OCR

Како извући текст из скенираних слика са Aspose.OCR

Скенирање уговора, споразума, књига страница, или стари записи обично производи слике датотеке – не уређивајући текст. Аппосе.ОЦР Сцан на текст за .НЕТ вам омогућава да аутоматизујете извлачење структурираног, претраживајућег текста из било ког скенираног документа или фотографије, штедећи безброј сати ручног уноса.

Реал светски проблем

Папирни документи, књиге и архиви се често чувају као слике. Екстракција њиховог садржаја за дигиталне протоке рада, усклађеност или истраживање може бити споро, скупо и склоно за грешку ако се уради ручно.

Преглед решења

Aspose.OCR Scan to Text for .NET конвертује слике штампаних страница у корисни текст, управља једним колоном, више колона и сложеним распоредама. Радни ток је савршен за дигитализацију уговора, књига, записи и пословних докумената за модерну употребу.

Принципи

Уверите се да имате:

  • Visual Studio 2019 или касније
  • .NET 6.0 или новији (или .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
  • Основни знања Ц #
PM> Install-Package Aspose.OCR

Корак по корак спровођење

Корак 1: Инсталирајте и конфигуришете Aspose.OCR

Додајте пакет NuGet и референце Aspose.OCR:

using Aspose.OCR;

Корак 2: Додајте своје скениране слике

Преузмите јединствене или више слика датотеке за обраду.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Корак 3: Подешавање подешавања препознавања

Tune za jezik dokumenta i raspored po potrebi.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Корак 4: Покрените процес препознавања

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Корак 5: Сачувати или обрадити извучен текст

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Корак 6: Додајте третман грешака

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Корак 7: Оптимизација распореда докумената

  • За књиге или чланке, користите DetectAreasMode.DOCUMENT или покушајте ДетекАреасМоде.АУТО
  • Препроцес слике (цроп, дескев) за најбољу прецизност
  • Батцх процес за велике архиве
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Корак 8: Потпуни пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Коришћење случајева и апликација

Уговор и дигитализација уговора

Брзо дигитализација правних или пословних докумената за претрагу, архивирање и цифрове радне токове.

Обрада књига и архива

Конвертирајте странице књига или историјске записе у претраживајуће, уређивајући формати.

Усклађеност и извлачење података

Омогућава аутоматске провере, ревизију или текстуалну екстракцију из наследног документа.

Заједнички изазови и решења

Проблем 1: Нискоквалитетне скенирање или фалсификовани текст

Решење: Користите пре-процесирање или побољшање слика за бољу ОЦР тачност.

Проблем 2: Мулти-колумни или сложени распоред

Решење: Прилагодите DetectAreasMode и тестирајте за најбоље управљање распоредом.

Проблем 3: Батцх дигитализација

Решење: Користите обраду бацха и управљање ресурсима за велике послове.

Размишљање о перформанси

  • Процес бацања за брзину и скалабилност
  • Koristite kvalitetne izvorne slike
  • Постављање ОЦР објеката након употребе

Најбоља пракса

  • Увек валидирајте извучен текст пре аутоматизације или архивирања
  • Користите исправне подешавања препознавања за тип документа
  • Оригинални скенирање за референце
  • Резултати тестирања ОЦР на узорку пре производње

Напредни сценарио

Сценарио 1: Мулти-језична екстракција докумената

settings.Language = Language.French;

Сценарио 2: Експорт у ЈСОН за интеграцију

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Закључак

Aspose.OCR Scan to Text for .NET је најбржи начин за конверзију скенираних слика и папирних докумената у кориснички, уређивајући текст – идеалан за правне, академске или пословне пројекте.

Види више примера и техничких детаља у Aspose.OCR за .NET API референце .

 Српски