Cum să pregătiți imagini scanate pentru OCR cu Deskew folosind .NET

Cum să pregătiți imagini scanate pentru OCR cu Deskew folosind .NET

Acurate OCR (Recunoașterea caracterului optic) începe cu imagini perfect aliniate. scanările rotate sau reduse reduc acuratețea OCR, deci descărcarea este o etapă critică de preprocesare. Aspose.Imaging pentru .NET vă permite să strângeți documente / fotografii pentru cele mai bune rezultate în orice instrument extern de ocr.

Problema lumii reale

Motoarele OCR funcționează cel mai bine pe imagini bine aliniate. scanările crooked cauzează caractere pierdute sau erori de text. strângerea manuală este prea lentă pentru batch-uri mari.

Soluție de ansamblu

Utilizați Aspose.Imaging pentru .NET pentru a descărca automat imaginile scanate.Salvați-le într-un format fără pierderi, cum ar fi PNG sau TIFF, gata pentru import în software-ul OCR de alegere (Asposa.OCR, Tesseract, etc.).

Prevederile

  • Visual Studio 2019 sau mai târziu
  • .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
  • Aspose.Imaging pentru .NET de la NuGet
  • Un document sau o imagine scanată (JPEG, PNG, TIFF etc.)
PM> Install-Package Aspose.Imaging

Implementarea pas cu pas

Pasul 1: Descărcați imaginea scanată

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Pasul 2: Transferați imaginile dezgustate la orice motor OCR

  • Utilizați instrumentul dvs. preferat OCR pentru a recunoaște textul din imaginea descărcată.
  • Cuvânt cheie: import scan_for_ocr_deskewed.png în pipeline OCR sau software (Aspose.OCR, Tesseract, ABBYY, etc.).

Pasul 3: Revizuirea și refinirea

  • Verificați rezultatele OCR. Dacă acuratețea este scăzută, ajustați setările de bază / fundal sau calitatea scanării.
  • Gândiți-vă la procesarea cu batch pentru toate scanurile noi pentru a vă menține fluxul de lucru de digitalizare eficient.

Folosește cazuri și aplicații

  • Digitalizarea arhivelor, recepțiilor, contractelor sau formularelor pentru textul căutat
  • Pregătirea documentelor de afaceri pentru conformitate și audit
  • Îmbunătățirea preciziei în orice OCR sau tub de automatizare a documentelor

Provocări și soluții comune

** Imaginile dezgustate provoacă încă erori OCR:** Încercați diferite culori de fundal, pre-filtrare pentru zgomot sau scanări de rezoluție mai mare.

File de ieșire sunt prea mari: Utilizați TIFF cu compresie sau PNG dacă este necesară transparența.

Mix de formate de imagine: Normalizează toate scanările într-un format fără pierderi înainte de OCR.

Cele mai bune practici

  • Folosiți întotdeauna formate de imagine fără pierderi pentru OCR
  • Păstrați imagini originale și procesate pentru referință
  • Documentează fluxul de lucru de descare și digitalizare pentru echipa ta

FAQ

**Q: Pot să descărc toate imaginile într-un folder?**A: Da – puneți acest cod într-o lingură peste toate fișierele, așa cum se arată în exemplele de batch anterioare.

**Q: Care este culoarea de fundal care funcționează cel mai bine pentru OCR?**A: Alb este cel mai sigur pentru text; utilizați transparență pentru grafică, sau se potrivește cu documentul.

**Q: Este OK să compresezi fișierele după descărcare?**A: Utilizați compresia fără pierderi pentru a evita artefacte care reduc precizia OCR.

concluziile

Descoperirea cu Aspose.Imaginarea pentru .NET este o necesitate pentru OCR fiabilă, digitalizare și automatizare a afacerilor. mențineți pipeline curat, rapid și precis! Aspose.Imaging pentru .NET API Referință .

 Română