Hogyan készítsünk szkennelt képeket az OCR-hez a Deskew használatával .NET
A pontos OCR (Optical Character Recognition) a tökéletesen illeszkedő képekkel kezdődik. A csúszott vagy forgatott szkennelések csökkentik az OKR pontosságát, így a csúsztatás kritikus előfeldolgozási lépés. Az Aspose.Imaging for .NET lehetővé teszi a dokumentumok / fényképek rögzítését a legjobb eredmények érdekében bármely külső okostelefon eszközön.
Valódi problémák
Az OCR motorok a legjobban illeszkednek a jól összehangolt képekhez. A krooked szkennelések elveszett karaktereket vagy szöveges hibákat okoznak.
megoldás áttekintése
Használja az Aspose.Imaging .NET-t a szkennelt képek automatikusan eltávolítására. mentse őket veszteségmentes formátumban, mint például a PNG vagy a TIFF, készen áll a kiválasztott OCR szoftverbe történő behozatalra (Asposa.OCR, Tesseract stb.).
előfeltételek
- Visual Studio 2019 vagy újabb
- .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
- Aspose.Imaging for .NET a NuGet-ről
- A szkennelt dokumentum vagy kép (JPEG, PNG, TIFF stb.)
PM> Install-Package Aspose.Imaging
lépésről lépésre megvalósítás
1. lépés: Távolítsa el a szkennelt képet
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
2. lépés: Áthelyezze a feloldott képeket bármilyen OCR motorra
- Használja a kedvenc OCR eszközt, hogy felismerje a szöveget az ábrázolt képből.
- Példa: import
scan_for_ocr_deskewed.png
az OCR csővezetékbe vagy szoftverbe (Aspose.OCR, Tesseract, ABBYY stb.)
3. lépés: felülvizsgálat és újrahasznosítás
- Ellenőrizze az OCR eredményeket. ha a pontosság alacsony, módosítsa a lemez / háttérbeállításokat vagy a szkennelési minőséget.
- Tekintse meg az összes új szkennelési csomagfeldolgozást, hogy a digitalizációs munkafolyamat hatékony legyen.
Esetek és alkalmazások használata
- Az archívumok, fogadások, szerződések vagy formanyomtatványok digitalizálása a kereshető szöveghez
- Üzleti dokumentumok előkészítése a megfeleléshez és az audithoz
- A pontosság növelése bármely OCR vagy dokumentum automatizálási csőn
Közös kihívások és megoldások
Az elmosódott képek továbbra is OCR hibákat okoznak: Próbálja ki a különböző háttérszíneket, a zaj előszűrését vagy a magasabb felbontású szkennelést.
A kimeneti fájlok túl nagyok: A TIFF-t tömörítéssel vagy PNG-vel használja, ha átláthatóságra van szükség.
** Képformátumok keveréke:** Normalizálja az összes szkennelést a veszteségmentes formátumra az OCR előtt.
Legjobb gyakorlatok
- Mindig használjon veszteségmentes képformátumokat az OCR-hez
- Tartsa az eredeti és feldolgozott képeket referenciaként
- Dokumentálja a munkafolyamatot és a digitalizációt a csapat számára
FAQ
**Q: Lehet-e összes képet egy mappában eldobni?**A: Igen, a kódot minden fájl felett egy csomóba helyezzük, amint azt a korábbi példákban is megmutattuk.
**Q: Milyen háttérszín működik a legjobban az OCR számára?**A: A fehér a legbiztonságosabb a szöveghez; használjon átlátszó grafika, vagy illeszkedik a dokumentumhoz.
**Q: OK-e a fájlok tömörítése a letöltés után?**A: Használjon veszteségmentes tömörítést, hogy elkerüljék az OCR pontosságát csökkenő tárgyakat.
következtetések
Az Aspose.Imaging for .NET a megbízható OCR, a digitalizáció és az üzleti automatizálás szükségessége. Tartsa tisztán, gyorsan és pontosan a csővezetéket! Az ASPOSE.Imaging a .NET API referenciájához .