Wie man Scanned Images für OCR mit Deskew mit .NET vorbereitet
Genauere OCR (Optical Character Recognition) beginnt mit perfekt angepassten Bildern. Schweiß- oder Routen-Scans reduzieren die Richtigkeit der OCR, so dass die Entfernung ein kritisches Vorverarbeitungsschritt ist. Aspose.Imaging für .NET ermöglicht es Ihnen, Dokumente/Fotos für die besten Ergebnisse in jedem externen OCC-Tool zu schneiden.
Real-Weltproblem
OCR-Motoren arbeiten am besten auf gut angestalteten Bildern. Crooked-Scans verursachen fehlende Charaktere oder Textfehler. Die manuelle Stretching ist zu langsam für große Battchen.
Überblick der Lösung
Verwenden Sie Aspose.Imaging für .NET, um skannte Bilder automatisch zu löschen. Speichern Sie sie in einem verliererlosen Format wie PNG oder TIFF, bereit für die Einfuhr in Ihre OCR-Software Ihrer Wahl (Asposa.OCR, Tesseract usw.).
Voraussetzung
- Visual Studio 2019 oder später
- .NET 6.0 oder höher (oder .Net Framework 4.6.2+)
- Aspose.Imaging für .NET von NuGet
- Ein geschanztes Dokument oder Bild (JPEG, PNG, TIFF usw.)
PM> Install-Package Aspose.Imaging
Schritt für Schritt Implementierung
Schritt 1: Entfernen Sie das Scanned Image
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Schritt 2: Übertreiben deskewed Bilder auf jeden OCR-Motor
- Verwenden Sie Ihr bevorzugtes OCR-Tool, um den Text aus dem abgelegten Bild zu erkennen.
- Beispiel: Einfuhr
scan_for_ocr_deskewed.png
in Ihren OCR-Pipeline oder Software (Aspose.OCR, Tesseract, ABBYY usw.)
Schritt 3: Überprüfen und Refine
- Überprüfen Sie die OCR-Ergebnisse.Wenn die Genauigkeit gering ist, ändern Sie den Standort / Hintergrund-Einstellungen oder die Scannenqualität.
- Betrachten Sie die Batch-Verarbeitung für alle neuen Scans, um Ihren Digitalisierungswerkfluss effizient zu halten.
Verwendung von Fällen und Anwendungen
- Digitalisierung von Archiven, Rezepten, Verträgen oder Formen für Suchbare Text
- Vorbereitung von Geschäftsdokumenten für die Einhaltung und Prüfung
- Erhöhung der Genauigkeit in jedem OCR oder Dokumentautomatisierung Pipe
Gemeinsame Herausforderungen und Lösungen
Deschweißte Bilder verursachen immer noch OCR-Fehler: Versuchen Sie verschiedene Hintergrundfarben, Vorfilterung für Lärm oder höhere Auflösungsscannungen.
Output-Dateien sind zu groß: Verwenden Sie TIFF mit Kompression oder PNG, wenn Transparenz erforderlich ist.
Mix von Bildformaten: Normalisieren Sie alle Scans zu einem Verlustefreien Format vor OCR.
Beste Praktiken
- Verwenden Sie immer verlorene Bildformate für OCR
- Erhalten Sie originelle und verarbeitete Bilder für Referenz
- Dokumentieren Sie Ihren Deskew- und Digitalisierungswerkfluss für das Team
FAQ
**Q: Kann ich alle Bilder in einem Ordner abschließen?**A: Ja – werfen Sie diesen Code in einen Lauf über alle Dateien, wie in früheren Battch Beispielen gezeigt wird.
**Q: Welche Hintergrundfarbe funktioniert am besten für OCR?**A: Weiß ist am sichersten für Text; Verwenden Sie transparente für Grafik oder entsprechen Sie Ihrem Dokument.
**Q: Ist es OK, die Dateien nach dem Entwurf zu komprimieren?**A: Verwenden Sie Verlustefreie Kompression, um Artefakte zu vermeiden, die die OCR-Genauigkeit reduzieren.
Schlussfolgerungen
Mit Aspose.Imaging für .NET ist eine Notwendigkeit für zuverlässige OCR, Digitalisierung und Business-Automatisierung.Halten Sie Ihre Pipeline sauber, schnell und genau! Aspose.Imaging für .NET API Referenz .