Com preparar imatges escanades per a OCR amb Deskew utilitzant .NET

Com preparar imatges escanades per a OCR amb Deskew utilitzant .NET

Accurat OCR (Reconeixement de caràcters òptic) comença amb imatges perfectament alineades. escans esquivats o girats redueixen l’exactitud d’OCR, per la qual cosa desencadenar és un pas crític de preprocessament. Aspose.Imaging per .NET li permet escurçar documents / fotografies per obtenir els millors resultats en qualsevol eina extern de OCR.

El problema del món real

Els motors d’OCR funcionen millor en imatges ben alineades. les escanades cròquides causen caràcters perduts o errors de text. La gravació manual és massa lenta per a grans batxes.

Revisió de solucions

Utilitzeu Aspose.Imaging per a .NET per descomptar les imatges escanades automàticament.Els emmagatzemem en un format sense pèrdues com PNG o TIFF, preparats per importar al vostre programari OCR de la seva elecció (Asposa.OCR, Tesseract, etc.).

Prerequisits

  • Visual Studio 2019 o posterior
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.Imaging per a .NET des de NuGet
  • Un document o imatge escanejada (JPEG, PNG, TIFF, etc.)
PM> Install-Package Aspose.Imaging

Implementació de pas a pas

Pas 1: Desconnectar la imatge escanada

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Pas 2: Passar les imatges desencadenades a qualsevol motor OCR

  • Utilitzeu la vostra eina OCR preferida per reconèixer el text de la imatge desqualificada.
  • Exemple: Importació scan_for_ocr_deskewed.png en el seu tub OCR o programari (Aspose.OCR, Tesseract, ABBYY, etc.).

Pas 3: Revisió i refinació

  • Verifica els resultats de l’OCR. Si la precisió és baixa, ajusta les configuracions de desqualificació / fons o la qualitat d’escaneig.
  • Considera el processament de batxillerat per a tots els nous escans per mantenir el seu flux de treball de digitalització eficient.

Utilitzar casos i aplicacions

  • Digitalitzar arxius, receptes, contractes o formularis per a text buscable
  • Preparació de documents empresarials per a la conformitat i auditoria
  • Augmentar la precisió en qualsevol OCR o pipeline d’automatització de documents

Els reptes i les solucions comunes

Imatges desencadenades encara causen errors OCR: Prova diferents colors de fons, pre-filtració per a soroll, o escans de resolució superior.

Els arxius de sortida són massa grans: Utilitza TIFF amb compressió, o PNG si es requereix transparència.

**Mix de formats d’imatge: ** Normalitza tots els escans a un format sense pèrdues abans de l’OCR.

Les millors pràctiques

  • Sempre utilitzeu formats d’imatge sense pèrdues per a OCR
  • Mantenir imatges originals i processades per referència
  • Documentar el seu flux de treball de desquesta i digitalització per a l’equip

FAQ

**Q: Puc desplegar totes les imatges en una carpeta?**A: Sí, emmagatzema aquest codi en un rumb sobre tots els arxius, com s’ha mostrat en els exemples de batxels anteriors.

**Q: Quina color de fons funciona millor per a OCR?**A: El blanc és més segur per a text; utilitzeu transparents per als gràfics, o coincideix amb el vostre document.

**Q: És OK compressar arxius després de descomprimir?**A: Utilitza la compressió sense pèrdues per evitar artefactes que redueixen l’exactitud OCR.

Conclusió

Descobrir amb Aspose.Imaging per .NET és una necessitat per a OCR fiable, digitalització i automatització de negocis. Mantenir el seu pipeline net, ràpid i precís! Aspose.Imaging per a .NET API Referència .

 Català