Как да отгледам сканираните документи за OCR в .NET

Как да отгледам сканираните документи за OCR в .NET

При подготовката на скенираните документи за Optical Character Recognition (OCR), е от съществено значение да се култивират изображения, за да бъдат фокусирани върху тежки текстови области. Кропирането на нерелевантни части на документа гарантира, че софтуерът за OCR може да извлече текст по-точен и ефективен начин. Aspose.Imaging за .NET осигурява необходимите инструменти за отглеждане на скринирани документи и ги подготвя за обработка на ОCR.

Предимства на Cropping Scanned Documents за OCR

  • Подобрена точност:- ОЦР се фокусира върху съответните текстови секции, избягвайки шум или нерелевантно съдържание.

  • Намалено време за обработка:- Растете изображението, за да минимизирате областта, която трябва да бъде обработена, ускорявайки процеса на OCR.

  • По-добър текст екстракция:- Уверете се, че текстът е правилно хармонизиран и добре оформен за OCR двигателите.

Предупреждения: Изграждане на Aspose.Imaging

  • Install the .NET on your system.
  • Aspose.Imaging: dotnet add package Aspose.Imaging
  • Obtain a metered license and configure it using SetMeteredKey().

Step-by-Step Guide to Crop Scanned Documents за OCR

Стъпка 1: Настройване на разрешението за измерване

Инсталирайте Aspose.Imaging за неограничен достъп до функциите за натрупване.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Стъпка 2: Изтеглете скенирания документ

Изтеглете скенирания документ файл, който трябва да бъде натрупан за подготовка на OCR.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

Стъпка 3: Определете площта

Определете правоъгълната област около текста, който трябва да бъде извлечен.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

Стъпка 4: Използвайте операцията за отглеждане

Use the Crop() method to extract the required text section from the image.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

Стъпка 5: Спасете разпръснатото изображение

Съхранявайте натрупаната картина за обработка на OCR.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

Използване и използване

  • Системи за обработка на документи:- Извършване на гравиране в автоматизирани системи за сканиране на документи, за да се подготвят изображения за OCR.

  • Интеграция на работния поток на OCR:- Документи за отглеждане, преди да ги прехвърлите на OCR двигатели за по-бързо и по - точно извличане на текст.

  • Валидиране на изхода:- Отворете натрупаното изображение, за да се гарантира, че текстът е ясно видим и правилно рамкиран.

Реални приложения

  • Скениране на правни и медицински документи:- Скенирани договори или медицински записи, за да се съсредоточи върху важен текст за OCR обработка.

  • Архивиране на данни:- Подгответе исторически документи за извличане на текст и цифровизация.

  • Услуги за електронно управление:- Автоматизирайте извличането на текст от скенираните формуляри или приложения.

Общи проблеми и фиксиране

  • Неправилна площ на култури:- Ensure the Rectangle coordinates match the section with text.

  • Снимки с ниско качество:- Уверете се, че скенираната картина има достатъчно висока резолюция за точност на OCR.

  • Разрешение за издаване на документи:- Проверете, че директорите за изход имат подходящи разрешения за писане.

заключение

С помощта на Aspose.Imaging за .NET можете лесно да събирате скенираните документи, за да се съсредоточите върху важните секции за обработка на OCR, подобряване на точността и ефективността.

 Български