Hur man förbereder skannade bilder för OCR med Deskew med .NET
Accurate OCR (Optical Character Recognition) börjar med perfekt anpassade bilder. Skewed eller roterade skanningar minskar precisionen av OCC, så deskewing är ett kritiskt pre-processingsteg. Aspose.Imaging för .NET låter dig sträcka dokument / foton för bästa resultat i alla externa OCD-verktyg.
Realvärldsproblem
OCR-motorer fungerar bäst på väl anpassade bilder. Crooked scans orsakar missade tecken eller textfel. Manuell sträckning är för långsam för stora bitar.
Översikt över lösningen
Spara dem i ett förlustfritt format som PNG eller TIFF, redo för import till din OCR programvara av val (Aspose.OCR, Tesseract, etc.).
förutsättningar
- Visual Studio 2019 eller senare
- .NET 6.0 eller senare (eller .Net Framework 4.6.2+)
- Aspose.Imaging för .NET från NuGet
- Ett skannat dokument eller bild (JPEG, PNG, TIFF, etc.)
PM> Install-Package Aspose.Imaging
Steg för steg genomförande
Steg 1: Stäng av den skannade bilden
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Steg 2: Flytta bortkopplade bilder till någon OCR-motor
- Använd ditt föredragna OCR-verktyg för att känna igen text från den avskjutna bilden.
- Exempel: Import
scan_for_ocr_deskewed.png
till din OCR-rör eller programvara (Aspose.OCR, Tesseract, ABBYY, etc.).
Steg 3: Omprövning och återvinning
- Kontrollera OCR-resultat. Om noggrannheten är låg justerar du skruv/bakgrundsinställningar eller skanningskvalitet.
- Tänk på batch-behandling för alla nya skanningar för att hålla din digitaliseringsarbetsflöde effektiv.
Använd fall och applikationer
- Digitalisera arkiv, mottagningar, avtal eller formulär för sökbar text
- Förberedelse av affärshandlingar för överensstämmelse och revision
- Förbättra noggrannhet i någon OCR eller dokumentautomation pipeline
Gemensamma utmaningar och lösningar
Deskade bilder orsakar fortfarande OCR-fel: Försök olika bakgrundsfärger, förfiltrering för buller eller högre upplösningsskanningar.
** Utgångsfiler är för stora:** Använd TIFF med kompression eller PNG om transparens behövs.
Mix av bildformat: Normalisera alla skanningar till ett förlustfritt format före OCR.
Bästa praxis
- Använd alltid förlustfria bildformat för OCR
- Håll original och bearbetade bilder för referens
- Dokumentera din disk och digitalisering arbetsflöde för teamet
FAQ
**Q: Kan jag packa alla bilder i en mapp?**A: Ja – vrid den här koden i en loop över alla filer, som visas i föregående batchexempel.
**Q: Vilken bakgrundsfärg fungerar bäst för OCR?**A: Vit är säkraste för text; använd transparent för grafik, eller matcha ditt dokument.
**Q: Är det OK att komprimera filer efter avkoppling?**A: Använd förlustfri kompression för att undvika artefakter som minskar OCR noggrannhet.
slutsatser
Utforska med Aspose.Imaging för .NET är en nödvändighet för tillförlitlig OCR, digitalisering och företagsautomation.Håll din rörledning ren, snabb och korrekt! Aspose.Imaging för .NET API Referens .