Com preparar imatges escanades per a OCR amb Deskew utilitzant .NET
Accurat OCR (Reconeixement de caràcters òptic) comença amb imatges perfectament alineades. escans esquivats o girats redueixen l’exactitud d’OCR, per la qual cosa desencadenar és un pas crític de preprocessament. Aspose.Imaging per .NET li permet escurçar documents / fotografies per obtenir els millors resultats en qualsevol eina extern de OCR.
El problema del món real
Els motors d’OCR funcionen millor en imatges ben alineades. les escanades cròquides causen caràcters perduts o errors de text. La gravació manual és massa lenta per a grans batxes.
Revisió de solucions
Utilitzeu Aspose.Imaging per a .NET per descomptar les imatges escanades automàticament.Els emmagatzemem en un format sense pèrdues com PNG o TIFF, preparats per importar al vostre programari OCR de la seva elecció (Asposa.OCR, Tesseract, etc.).
Prerequisits
- Visual Studio 2019 o posterior
- .NET 6.0 o posterior (o .Net Framework 4.6.2+)
- Aspose.Imaging per a .NET des de NuGet
- Un document o imatge escanejada (JPEG, PNG, TIFF, etc.)
PM> Install-Package Aspose.Imaging
Implementació de pas a pas
Pas 1: Desconnectar la imatge escanada
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Pas 2: Passar les imatges desencadenades a qualsevol motor OCR
- Utilitzeu la vostra eina OCR preferida per reconèixer el text de la imatge desqualificada.
- Exemple: Importació
scan_for_ocr_deskewed.png
en el seu tub OCR o programari (Aspose.OCR, Tesseract, ABBYY, etc.).
Pas 3: Revisió i refinació
- Verifica els resultats de l’OCR. Si la precisió és baixa, ajusta les configuracions de desqualificació / fons o la qualitat d’escaneig.
- Considera el processament de batxillerat per a tots els nous escans per mantenir el seu flux de treball de digitalització eficient.
Utilitzar casos i aplicacions
- Digitalitzar arxius, receptes, contractes o formularis per a text buscable
- Preparació de documents empresarials per a la conformitat i auditoria
- Augmentar la precisió en qualsevol OCR o pipeline d’automatització de documents
Els reptes i les solucions comunes
Imatges desencadenades encara causen errors OCR: Prova diferents colors de fons, pre-filtració per a soroll, o escans de resolució superior.
Els arxius de sortida són massa grans: Utilitza TIFF amb compressió, o PNG si es requereix transparència.
**Mix de formats d’imatge: ** Normalitza tots els escans a un format sense pèrdues abans de l’OCR.
Les millors pràctiques
- Sempre utilitzeu formats d’imatge sense pèrdues per a OCR
- Mantenir imatges originals i processades per referència
- Documentar el seu flux de treball de desquesta i digitalització per a l’equip
FAQ
**Q: Puc desplegar totes les imatges en una carpeta?**A: Sí, emmagatzema aquest codi en un rumb sobre tots els arxius, com s’ha mostrat en els exemples de batxels anteriors.
**Q: Quina color de fons funciona millor per a OCR?**A: El blanc és més segur per a text; utilitzeu transparents per als gràfics, o coincideix amb el vostre document.
**Q: És OK compressar arxius després de descomprimir?**A: Utilitza la compressió sense pèrdues per evitar artefactes que redueixen l’exactitud OCR.
Conclusió
Descobrir amb Aspose.Imaging per .NET és una necessitat per a OCR fiable, digitalització i automatització de negocis. Mantenir el seu pipeline net, ràpid i precís! Aspose.Imaging per a .NET API Referència .