Hoe Scanned Images voor te bereiden voor OCR met Deskew met behulp van .NET

Hoe Scanned Images voor te bereiden voor OCR met Deskew met behulp van .NET

Accurate OCR (Optical Character Recognition) begint met perfect geharmoniseerde afbeeldingen. Skeed of rotated scans verminderen de accuracy van de oCR, dus ontkenning is een kritisch voorverwerkingsstap. Aspose.Imaging voor .NET laat u documenten / foto’s strekken voor beste resultaten in elke externe ocr tool.

Real-wereld probleem

OCR-motoren werken het beste op goed gealineerde afbeeldingen.Crooked scans veroorzaken verloren karakters of tekstfouten.Manuele straling is te langzaam voor grote stukken.

Overzicht oplossingen

Gebruik Aspose.Imaging voor .NET om gescannelde afbeeldingen automatisch uit te schakelen. bewaar ze in een verliesloos formaat zoals PNG of TIFF, klaar voor import in uw OCR-software van keuze (Asposa.OCR, Tesseract, enz.).

Voorwaarden

  • Visual Studio 2019 of later
  • .NET 6.0 of hoger (of .Net Framework 4.6.2+)
  • Aspose.Imaging voor .NET van NuGet
  • Een gescande document of afbeelding (JPEG, PNG, TIFF, enz.)
PM> Install-Package Aspose.Imaging

Stap voor stap implementatie

Stap 1: Verwijder de gescannen afbeelding

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Stap 2: Overdragen van gedeckeerde afbeeldingen naar elke OCR-motor

  • Gebruik uw voorkeurs OCR-tool om tekst te herkennen vanuit het ontworpen beeld.
  • Voorbeeld: Import scan_for_ocr_deskewed.png naar uw OCR-pipe of software (Aspose.OCR, Tesseract, ABBYY, enz.).

Stap 3: beoordelen en herzien

  • Controleer de OCR-resultaten.Als de nauwkeurigheid laag is, aanpassen we de achtergrondinstellingen of de scankwaliteit.
  • Overweeg batchverwerking voor alle nieuwe scans om uw digitalisatiewerkstroom efficiënt te houden.

Gebruik Cases en Applicaties

  • Digitaliseren van archieven, ontvangsten, contracten of formulieren voor zoekbare tekst
  • Het voorbereiden van bedrijfsdocumenten voor naleving en audit
  • Verhoging van nauwkeurigheid in een OCR of documentautomatiseringssysteem

Gemeenschappelijke uitdagingen en oplossingen

Dekkeerde afbeeldingen veroorzaken nog steeds OCR-fouten: Probeer verschillende achtergrondkleuren, voorfiltering voor lawaai of hogere resolutie scans.

Output-bestanden zijn te groot: Gebruik TIFF met compressie of PNG als transparantie nodig is.

Mix van afbeeldingsformaat: Normaliseren van alle scans naar een verliesloze vorm voor OCR.

Beste praktijken

  • Altijd gebruik maken van verliesloze afbeeldingsformaten voor OCR
  • Oorspronkelijke en verwerkte afbeeldingen voor referentie houden
  • Documenteren van uw deskew en digitalisatie workflow voor het team

FAQ

**Q: Kan ik alle afbeeldingen in een map verzamelen?**A: Ja – wrap deze code in een loop over alle bestanden, zoals weergegeven in eerdere batch voorbeelden.

**Q: Welke achtergrondkleur werkt het beste voor OCR?**A: Witte is het veiliger voor tekst; gebruik transparant voor graphics, of match uw document.

**Q: Is het OK om bestanden te compressen na ontlasting?**A: Gebruik verliesloze compressie om artefacten te vermijden die de OCR nauwkeurigheid verminderen.

Conclusie

Ontdek met Aspose.Imaging voor .NET is een must voor betrouwbare OCR, digitalisering en bedrijfsautomatisering. Houd uw pipeline schoon, snel en nauwkeurig! Aspose.Imaging voor .NET API Referentie .

 Nederlands