Hoe Scanned Images voor te bereiden voor OCR met Deskew met behulp van .NET
Accurate OCR (Optical Character Recognition) begint met perfect geharmoniseerde afbeeldingen. Skeed of rotated scans verminderen de accuracy van de oCR, dus ontkenning is een kritisch voorverwerkingsstap. Aspose.Imaging voor .NET laat u documenten / foto’s strekken voor beste resultaten in elke externe ocr tool.
Real-wereld probleem
OCR-motoren werken het beste op goed gealineerde afbeeldingen.Crooked scans veroorzaken verloren karakters of tekstfouten.Manuele straling is te langzaam voor grote stukken.
Overzicht oplossingen
Gebruik Aspose.Imaging voor .NET om gescannelde afbeeldingen automatisch uit te schakelen. bewaar ze in een verliesloos formaat zoals PNG of TIFF, klaar voor import in uw OCR-software van keuze (Asposa.OCR, Tesseract, enz.).
Voorwaarden
- Visual Studio 2019 of later
- .NET 6.0 of hoger (of .Net Framework 4.6.2+)
- Aspose.Imaging voor .NET van NuGet
- Een gescande document of afbeelding (JPEG, PNG, TIFF, enz.)
PM> Install-Package Aspose.Imaging
Stap voor stap implementatie
Stap 1: Verwijder de gescannen afbeelding
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Stap 2: Overdragen van gedeckeerde afbeeldingen naar elke OCR-motor
- Gebruik uw voorkeurs OCR-tool om tekst te herkennen vanuit het ontworpen beeld.
- Voorbeeld: Import
scan_for_ocr_deskewed.png
naar uw OCR-pipe of software (Aspose.OCR, Tesseract, ABBYY, enz.).
Stap 3: beoordelen en herzien
- Controleer de OCR-resultaten.Als de nauwkeurigheid laag is, aanpassen we de achtergrondinstellingen of de scankwaliteit.
- Overweeg batchverwerking voor alle nieuwe scans om uw digitalisatiewerkstroom efficiënt te houden.
Gebruik Cases en Applicaties
- Digitaliseren van archieven, ontvangsten, contracten of formulieren voor zoekbare tekst
- Het voorbereiden van bedrijfsdocumenten voor naleving en audit
- Verhoging van nauwkeurigheid in een OCR of documentautomatiseringssysteem
Gemeenschappelijke uitdagingen en oplossingen
Dekkeerde afbeeldingen veroorzaken nog steeds OCR-fouten: Probeer verschillende achtergrondkleuren, voorfiltering voor lawaai of hogere resolutie scans.
Output-bestanden zijn te groot: Gebruik TIFF met compressie of PNG als transparantie nodig is.
Mix van afbeeldingsformaat: Normaliseren van alle scans naar een verliesloze vorm voor OCR.
Beste praktijken
- Altijd gebruik maken van verliesloze afbeeldingsformaten voor OCR
- Oorspronkelijke en verwerkte afbeeldingen voor referentie houden
- Documenteren van uw deskew en digitalisatie workflow voor het team
FAQ
**Q: Kan ik alle afbeeldingen in een map verzamelen?**A: Ja – wrap deze code in een loop over alle bestanden, zoals weergegeven in eerdere batch voorbeelden.
**Q: Welke achtergrondkleur werkt het beste voor OCR?**A: Witte is het veiliger voor tekst; gebruik transparant voor graphics, of match uw document.
**Q: Is het OK om bestanden te compressen na ontlasting?**A: Gebruik verliesloze compressie om artefacten te vermijden die de OCR nauwkeurigheid verminderen.
Conclusie
Ontdek met Aspose.Imaging voor .NET is een must voor betrouwbare OCR, digitalisering en bedrijfsautomatisering. Houd uw pipeline schoon, snel en nauwkeurig! Aspose.Imaging voor .NET API Referentie .