Как да подготвим сканираните изображения за OCR с Deskew с помощта на .NET

Как да подготвим сканираните изображения за OCR с Deskew с помощта на .NET

Точната OCR (оптична разпознаване на характера) започва с перфектно съчетани изображения. Скенираните или ротираните скени намаляват точността на ОCR, така че отклоняването е критичен препроцесинг. Aspose.Imaging за .NET ви позволява да изтеглите документи / снимки за най-добрите резултати във всеки външен инструмент за ОКР.

Реални световни проблеми

OCR двигателите работят най-добре на добре съгласувани изображения. Crooked скани причиняват пропуснати символи или текстови грешки.

Преглед на решението

Използвайте Aspose.Imaging за .NET, за да изтеглите скенираните изображения автоматично. Съхранявайте ги в безкраен формат като PNG или TIFF, готови за внос в софтуера за OCR по избор (Asposa.OCR, Tesseract и т.н.).

Предупреждения

  • Visual Studio 2019 или по-късно
  • .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
  • Aspose.Imaging за .NET от NuGet
  • Скениран документ или изображение (JPEG, PNG, TIFF и т.н.)
PM> Install-Package Aspose.Imaging

Стъпка по стъпка изпълнение

Стъпка 1: Отключете сканираната картина

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Стъпка 2: Прехвърляне на отклонени изображения към всеки OCR двигател

  • Използвайте предпочитания си OCR инструмент, за да разпознаете текста от изображението.
  • Пример: Внос scan_for_ocr_deskewed.png в вашата OCR тръба или софтуер (Aspose.OCR, Tesseract, ABBYY и т.н.).

Стъпка 3: Преглед и преглед

  • Проверете резултатите от OCR. Ако точността е ниска, коригирайте настройките на таван/задъгълност или качеството на сканирането.
  • Помислете за обработката на комплекти за всички нови скани, за да поддържате цифровизационния работен поток ефективен.

Използване на случаи и приложения

  • Дигитализация на архиви, записи, договори или формуляри за търсещ текст
  • Подготвяне на бизнес документи за съответствие и одит
  • Повишаване на точността във всяка OCR или документална автоматизация

Съвместни предизвикателства и решения

Откритите изображения все още причиняват грешки в OCR: Опитайте различни цветове на фона, предварително филтриране за шум или сканиране с по-висока резолюция.

Изходните файлове са твърде големи: Използвайте TIFF с компресия или PNG, ако е необходима прозрачност.

Смесване на формати на изображение: Нормализирайте всички скани до безкраен формат преди OCR.

Най-добрите практики

  • Винаги използвайте формати на изображения без загуби за OCR
  • Съхранявайте оригинални и обработени изображения за референтност
  • Документирайте вашия работен поток и дигитализация за екипа

FAQ

**Q: Мога ли да отваря всички изображения в една папка?**A: Да – вградете този код в кръг над всички файлове, както е показано в предишни примери за партида.

**Q: Кой цвят на фона работи най-добре за OCR?**A: Белият е най-безопасен за текст; използвайте прозрачен за графики, или съответства на вашия документ.

**Q: ОК ли е да компресирате файловете след отваряне?**A: Използвайте компресия без загуби, за да избегнете артифакти, които намаляват точността на OCR.

заключение

Откриване с Aspose.Imaging за .NET е необходимост за надеждна OCR, цифровизация и бизнес автоматизация. Дръжте тръбопровода си чист, бърз и точен! Aspose.Imaging за .NET API референтност .

 Български