Ako pripraviť skenované obrázky pre OCR s Deskew pomocou .NET
Presné OCR (Optical Character Recognition) začína s dokonale zosúladenými obrazmi.Skewed alebo rotated scans znižujú presnosť oCR, takže deskewing je kritickým krokom predbežného spracovania.Aspose.Imaging pre .NET vám umožňuje strieľať dokumenty / fotografie pre najlepšie výsledky v akomkoľvek externom nástroji OCC.
Reálny svetový problém
OCR motory pracujú najlepšie na dobre zosúladených snímkach. Crooked scans spôsobujú chýbajúce znaky alebo textové chyby.
Prehľad riešenia
Použite Aspose.Imaging pre .NET automaticky odstraňovať skenované obrázky. uložiť ich v bezproblémovom formáte, ako je PNG alebo TIFF, pripravený na import do vášho OCR softvéru voľby (ASPOSE.OCR, Tesseract, atď.).
Predpoklady
- Visual Studio 2019 alebo neskôr
- .NET 6.0 alebo novší (alebo .Net Framework 4.6.2+)
- Aspose.Imaging pre .NET z NuGet
- Skenovaný dokument alebo obrázok (JPEG, PNG, TIFF atď.)
PM> Install-Package Aspose.Imaging
krok za krokom implementácia
Krok 1: Odstráňte skenovaný obrázok
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Krok 2: Prejdite rozmazané obrázky do akéhokoľvek motora OCR
- Použite svoj obľúbený nástroj OCR na rozpoznanie textu z vymazaného obrazu.
- Príklad : dovoz
scan_for_ocr_deskewed.png
do vášho OCR potrubia alebo softvéru (Aspose.OCR, Tesseract, ABBYY, atď.).
Krok 3: Preskúmať a opraviť
- Skontrolujte výsledky OCR. Ak je presnosť nízka, upravte nastavenia odkladu / pozadia alebo kvalitu skenovania.
- Zvážte spracovanie balíkov pre všetky nové skenovanie, aby sa váš pracovný tok digitalizácie udržal efektívnym.
Použitie prípadov a aplikácií
- Digitalizácia archívov, recepcií, zmlúv alebo formulárov pre vyhľadávateľný text
- Príprava obchodných dokumentov na dodržiavanie a audit
- Zvýšenie presnosti v akomkoľvek potrubí OCR alebo automatizácie dokumentov
Spoločné výzvy a riešenia
Deskvrdené obrázky stále spôsobujú chyby OCR: Vyskúšajte rôzne farby pozadia, predfiltrovanie pre hluk alebo vyššie rozlíšenie skenovania.
** Výstupné súbory sú príliš veľké:** Použite TIFF s kompresiou alebo PNG, ak je potrebná transparentnosť.
Mix obrazových formátov: Normalizujte všetky skenovanie do bezproblémového formátu pred OCR.
Najlepšie postupy
- Vždy používať bezproblémové formáty obrazu pre OCR
- Udržiavať originálne a spracované obrázky pre referencie
- Dokumentácia vášho pracovného toku a digitalizácie pre tím
FAQ
**Q: Môžem rozdeliť všetky obrázky do priečinka?**Odpoveď: Áno – vložte tento kód do kruhu nad všetkými súbormi, ako je uvedené v predchádzajúcich príkladoch.
**Q: Ktorá farba pozadia funguje najlepšie pre OCR?**Odpoveď: Biela je najbezpečnejšia pre text; používať transparentné pre grafiku, alebo zhodovať váš dokument.
**Q: Je v poriadku komprimovať súbory po odkladaní?**A: Použite kompresie bez straty, aby ste sa vyhli artefaktom, ktoré znižujú presnosť OCR.
Záver
Rozšírenie s Aspose.Imaging pre .NET je nevyhnutné pre spoľahlivé OCR, digitalizáciu a obchodnú automatizáciu. Udržujte svoju potrubie čistú, rýchlu a presnú! Aspose.Imaging pre .NET API Reference .