Comment préparer des images scanées pour OCR avec Deskew en utilisant .NET

Comment préparer des images scanées pour OCR avec Deskew en utilisant .NET

L’OCR (Récognition des caractères optiques) précise commence par des images parfaitement alignées. Les scans écrasés ou rotés réduisent l’exactitude de la OCR, de sorte que le découvrement est une étape critique de pré-procession. Aspose.Imaging pour .NET vous permet de graver des documents/photos pour obtenir les meilleurs résultats dans n’importe quel outil de OCR extérieur.

Problème du monde réel

Les moteurs OCR fonctionnent le mieux sur des images bien alignées. les scans crooked causent des caractères manquants ou des erreurs de texte.

Vue de la solution

Utilisez Aspose.Imaging pour .NET pour décomposer les images scannées automatiquement. Enregistrez-les dans un format sans perte comme PNG ou TIFF, prêts à importer dans votre logiciel OCR de choix (Asposa.OCR, Tesseract, etc.).

Principaux

  • Visual Studio 2019 ou ultérieur
  • .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
  • Aspose.Imaging pour .NET de NuGet
  • Un document ou image scanné (JPEG, PNG, TIFF, etc.)
PM> Install-Package Aspose.Imaging

La mise en œuvre étape par étape

Étape 1 : Découvrir l’image scanée

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Étape 2 : Passez les images déchirées à n’importe quel moteur OCR

  • Utilisez votre outil OCR préféré pour reconnaître le texte de l’image déchirée.
  • Exemple : importation scan_for_ocr_deskewed.png dans votre pipeline ou logiciel OCR (Aspose.OCR, Tesseract, ABBYY, etc.).

Étape 3 : Recherche et révision

  • Veuillez vérifier les résultats OCR. Si l’exactitude est faible, ajuster les paramètres de plafond / arrière-plan ou la qualité du scan.
  • Considérez le processus d’emballage pour tous les nouveaux scans pour que votre flux de travail de numérisation soit efficace.

Utiliser les cas et les applications

  • Digitaliser les archives, réceptions, contrats ou formulaires pour le texte recherchable
  • Préparation de documents d’affaires pour la conformité et l’audit
  • Améliorer l’exactitude dans n’importe quel OCR ou pipeline d’automatisation des documents

Défis communs et solutions

Les images déchirées causent toujours des erreurs OCR: Essayez différentes couleurs de fond, pré-filtration pour le bruit, ou des scans de résolution supérieure.

Les fichiers de sortie sont trop grands: Utilisez TIFF avec compression, ou PNG si la transparence est nécessaire.

Mix de formats d’image: Normalisez tous les scans dans un format sans perte avant OCR.

Migliori pratiche

  • Utilisez toujours des formats d’image sans perte pour OCR
  • Garder des images originales et traitées pour référence
  • Documentez votre déco et votre flux de travail de numérisation pour l’équipe

FAQ

**Q: Puis-je décomposer toutes les images dans un dossier?**A: Oui – versez ce code dans un couloir sur tous les fichiers, comme indiqué dans les exemples précédents.

**Q: Quelle couleur de fond fonctionne le mieux pour OCR?**A: Blanc est le plus sûr pour le texte; utilisez transparent pour les graphiques, ou correspond votre document.

**Q: Est-ce OK de compresser les fichiers après le déchargement?**A: Utilisez une compression sans perte pour éviter les objets qui réduisent l’exactitude de l’OCR.

Conclusion

Développement avec Aspose.Imaging pour .NET est un must pour une OCR fiable, la numérisation et l’automatisation des affaires. Gardez votre pipeline propre, rapide et précis! Aspose.Imaging pour la référence API .NET .

 Français