Как да подготвим сканираните изображения за OCR с Deskew с помощта на .NET
Точната OCR (оптична разпознаване на характера) започва с перфектно съчетани изображения. Скенираните или ротираните скени намаляват точността на ОCR, така че отклоняването е критичен препроцесинг. Aspose.Imaging за .NET ви позволява да изтеглите документи / снимки за най-добрите резултати във всеки външен инструмент за ОКР.
Реални световни проблеми
OCR двигателите работят най-добре на добре съгласувани изображения. Crooked скани причиняват пропуснати символи или текстови грешки.
Преглед на решението
Използвайте Aspose.Imaging за .NET, за да изтеглите скенираните изображения автоматично. Съхранявайте ги в безкраен формат като PNG или TIFF, готови за внос в софтуера за OCR по избор (Asposa.OCR, Tesseract и т.н.).
Предупреждения
- Visual Studio 2019 или по-късно
- .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
- Aspose.Imaging за .NET от NuGet
- Скениран документ или изображение (JPEG, PNG, TIFF и т.н.)
PM> Install-Package Aspose.Imaging
Стъпка по стъпка изпълнение
Стъпка 1: Отключете сканираната картина
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Стъпка 2: Прехвърляне на отклонени изображения към всеки OCR двигател
- Използвайте предпочитания си OCR инструмент, за да разпознаете текста от изображението.
- Пример: Внос
scan_for_ocr_deskewed.png
в вашата OCR тръба или софтуер (Aspose.OCR, Tesseract, ABBYY и т.н.).
Стъпка 3: Преглед и преглед
- Проверете резултатите от OCR. Ако точността е ниска, коригирайте настройките на таван/задъгълност или качеството на сканирането.
- Помислете за обработката на комплекти за всички нови скани, за да поддържате цифровизационния работен поток ефективен.
Използване на случаи и приложения
- Дигитализация на архиви, записи, договори или формуляри за търсещ текст
- Подготвяне на бизнес документи за съответствие и одит
- Повишаване на точността във всяка OCR или документална автоматизация
Съвместни предизвикателства и решения
Откритите изображения все още причиняват грешки в OCR: Опитайте различни цветове на фона, предварително филтриране за шум или сканиране с по-висока резолюция.
Изходните файлове са твърде големи: Използвайте TIFF с компресия или PNG, ако е необходима прозрачност.
Смесване на формати на изображение: Нормализирайте всички скани до безкраен формат преди OCR.
Най-добрите практики
- Винаги използвайте формати на изображения без загуби за OCR
- Съхранявайте оригинални и обработени изображения за референтност
- Документирайте вашия работен поток и дигитализация за екипа
FAQ
**Q: Мога ли да отваря всички изображения в една папка?**A: Да – вградете този код в кръг над всички файлове, както е показано в предишни примери за партида.
**Q: Кой цвят на фона работи най-добре за OCR?**A: Белият е най-безопасен за текст; използвайте прозрачен за графики, или съответства на вашия документ.
**Q: ОК ли е да компресирате файловете след отваряне?**A: Използвайте компресия без загуби, за да избегнете артифакти, които намаляват точността на OCR.
заключение
Откриване с Aspose.Imaging за .NET е необходимост за надеждна OCR, цифровизация и бизнес автоматизация. Дръжте тръбопровода си чист, бърз и точен! Aspose.Imaging за .NET API референтност .