Jak připravit skenované obrázky pro OCR s Deskew pomocí .NET
Přesná OCR (Optical Character Recognition) začíná dokonale uspořádanými obrázky.Skewed nebo rotated scans snižují přesnost oCR, takže deskewing je kritickým krokem předběžného zpracování.Aspose.Imaging pro .NET vám umožňuje strhnout dokumenty / fotografie pro nejlepší výsledky v jakémkoliv externím nástroji OCC.
Reálný světový problém
OCR motory pracují nejlépe na dobře vyrovnaných snímcích.Crooked scans způsobují chybějící znaky nebo textové chyby.Rukovita je příliš pomalá pro velké sety.
Řešení přehled
Použijte Aspose.Imaging pro .NET automaticky odstraňovat skenované obrázky. uložte je v bezúhonném formátu, jako je PNG nebo TIFF, připravené k dovozu do vašeho OCR softwaru volby (Asposa.OCR, Tesseract, atd.).
Předpoklady
- Visual Studio 2019 nebo novější
- .NET 6.0 nebo novější (nebo .Net Framework 4.6.2+)
- Aspose.Imaging pro .NET z NuGet
- Skenovaný dokument nebo obrázek (JPEG, PNG, TIFF atd.)
PM> Install-Package Aspose.Imaging
krok za krokem implementace
Krok 1: Odstranění skenovaného obrazu
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Krok 2: Přesun Deskewed obrázků do jakéhokoli motoru OCR
- Použijte svůj oblíbený nástroj OCR k rozpoznání textu z vymazaného obrazu.
- Příklad: dovoz
scan_for_ocr_deskewed.png
do vašeho OCR potrubí nebo softwaru (Aspose.OCR, Tesseract, ABBYY atd.).
Krok 3: Přezkoumání a vyrovnání
- Zkontrolujte výsledky OCR. Pokud je přesnost nízká, upravte nastavení desky / pozadí nebo kvalitu skenování.
- Vezměte v úvahu batch-procesování pro všechny nové skenování, aby vaše digitalizace pracovního toku efektivní.
Použití případů a aplikací
- Digitalizace archivů, přihlášek, smluv nebo formulářů pro vyhledávaný text
- Příprava obchodních dokumentů pro dodržování a audit
- Zvýšení přesnosti v jakémkoli potrubí OCR nebo automatizace dokumentů
Společné výzvy a řešení
Vymazané obrázky stále způsobují chyby OCR: Vyzkoušejte různé barvy pozadí, předfiltrace pro hluk nebo vyšší rozlišení skenování.
** Výstupní soubory jsou příliš velké:** Použijte TIFF s kompresí nebo PNG, pokud je zapotřebí transparentnosti.
Mix obrazových formátů: Normalizujte všechny skenování do bezúhonného formátu před OCR.
Nejlepší postupy
- Vždy používejte bezproblémové formáty obrazu pro OCR
- Udržujte originální a zpracované obrázky pro reference
- Dokumentace a digitalizace pracovního toku pro tým
FAQ
**Q: Můžu smazat všechny obrázky v složce?**Odpověď: Ano – vložte tento kód do kruhu nad všemi soubory, jak je uvedeno v předchozích příkladech.
**Q: Která barva pozadí funguje nejlépe pro OCR?**Odpověď: Bílý je nejbezpečnější pro text; použijte transparentní pro grafiku nebo odpovídáte dokumentu.
**Q: Je v pořádku komprimovat soubory po vypnutí?**Odpověď: Použijte bezúhonnou kompresi, abyste se vyhnuli artefaktům, které snižují přesnost OCR.
závěr
Vytvoření s Aspose.Imaging pro .NET je nutností pro spolehlivé OCR, digitalizace a obchodní automatizaci. Udržujte svůj potrubí čistý, rychlý a přesný! Aspose.Imaging pro .NET API Reference .