Как да отгледам сканираните документи за OCR в .NET
При подготовката на скенираните документи за Optical Character Recognition (OCR), е от съществено значение да се култивират изображения, за да бъдат фокусирани върху тежки текстови области. Кропирането на нерелевантни части на документа гарантира, че софтуерът за OCR може да извлече текст по-точен и ефективен начин. Aspose.Imaging за .NET осигурява необходимите инструменти за отглеждане на скринирани документи и ги подготвя за обработка на ОCR.
Предимства на Cropping Scanned Documents за OCR
Подобрена точност:- ОЦР се фокусира върху съответните текстови секции, избягвайки шум или нерелевантно съдържание.
Намалено време за обработка:- Растете изображението, за да минимизирате областта, която трябва да бъде обработена, ускорявайки процеса на OCR.
По-добър текст екстракция:- Уверете се, че текстът е правилно хармонизиран и добре оформен за OCR двигателите.
Предупреждения: Изграждане на Aspose.Imaging
- Install the .NET on your system.
- Aspose.Imaging:
dotnet add package Aspose.Imaging
- Obtain a metered license and configure it using
SetMeteredKey()
.
Step-by-Step Guide to Crop Scanned Documents за OCR
Стъпка 1: Настройване на разрешението за измерване
Инсталирайте Aspose.Imaging за неограничен достъп до функциите за натрупване.
using Aspose.Imaging;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Стъпка 2: Изтеглете скенирания документ
Изтеглете скенирания документ файл, който трябва да бъде натрупан за подготовка на OCR.
string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
Console.WriteLine($"Loaded scanned document: {inputPath}");
}
Стъпка 3: Определете площта
Определете правоъгълната област около текста, който трябва да бъде извлечен.
var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");
Стъпка 4: Използвайте операцията за отглеждане
Use the Crop()
method to extract the required text section from the image.
image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");
Стъпка 5: Спасете разпръснатото изображение
Съхранявайте натрупаната картина за обработка на OCR.
image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");
Използване и използване
Системи за обработка на документи:- Извършване на гравиране в автоматизирани системи за сканиране на документи, за да се подготвят изображения за OCR.
Интеграция на работния поток на OCR:- Документи за отглеждане, преди да ги прехвърлите на OCR двигатели за по-бързо и по - точно извличане на текст.
Валидиране на изхода:- Отворете натрупаното изображение, за да се гарантира, че текстът е ясно видим и правилно рамкиран.
Реални приложения
Скениране на правни и медицински документи:- Скенирани договори или медицински записи, за да се съсредоточи върху важен текст за OCR обработка.
Архивиране на данни:- Подгответе исторически документи за извличане на текст и цифровизация.
Услуги за електронно управление:- Автоматизирайте извличането на текст от скенираните формуляри или приложения.
Общи проблеми и фиксиране
Неправилна площ на култури:- Ensure the
Rectangle
coordinates match the section with text.Снимки с ниско качество:- Уверете се, че скенираната картина има достатъчно висока резолюция за точност на OCR.
Разрешение за издаване на документи:- Проверете, че директорите за изход имат подходящи разрешения за писане.
заключение
С помощта на Aspose.Imaging за .NET можете лесно да събирате скенираните документи, за да се съсредоточите върху важните секции за обработка на OCR, подобряване на точността и ефективността.