Kako pripremiti skenirane slike za OCR s Deskew pomoću .NET-a

Kako pripremiti skenirane slike za OCR s Deskew pomoću .NET-a

Točna OCR (Optical Character Recognition) počinje sa savršeno usklađenim slikama.Skewed ili rotirajuće skeniranje smanjuje točnost oCR-a, tako da je deskewing kritičan korak u predprocesiranju.Aspose.Imaging za .NET omogućuje vam da strijete dokumente/fotografije za najbolje rezultate u bilo kojem vanjskom alatku za OCR.

Real-svjetski problem

OCR motori najbolje rade na dobro usklađenim slikama.Krokirani skeniranje uzrokuje propustne znakove ili tekstne pogreške.Razmjeravanje je previše sporo za velike partije.

Pregled rješenja

Koristite Aspose.Imaging za .NET da biste automatski otklonili skenirane slike. sačuvajte ih u bespomoćnom formatu kao što su PNG ili TIFF, spremni za uvoz u OCR softver po izboru (Asposa.OCR, Tesseract, itd.).

Preduzeća

  • Visual Studio 2019 ili kasnije
  • .NET 6.0 ili noviji (ili .Net Framework 4.6.2+)
  • Aspose.Imaging za .NET od NuGet
  • Skanirani dokument ili slika (JPEG, PNG, TIFF, itd.)
PM> Install-Package Aspose.Imaging

Korak po korak provedba

Korak 1: Otklonite skeniranu sliku

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Korak 2: Prebacite deskeved slike na bilo koji OCR motor

  • Koristite svoj omiljeni OCR alat za prepoznavanje teksta iz prikazanog slika.
  • Primjer: uvoz scan_for_ocr_deskewed.png u vaš OCR cijevi ili softver (Aspose.OCR, Tesseract, ABBYY, itd.).

Korak 3: Pregled i preispitivanje

  • Ako je točnost niska, prilagodite postavke pokrivača / pozadine ili kvalitetu skeniranja.
  • Razmislite o pakiranju za sve nove skeniranje kako biste održali svoj digitalni radni tok učinkovit.

Korištenje slučajeva i aplikacija

  • Digitalizacija arhiva, recepata, ugovora ili obrazaca za tražljiv tekst
  • Priprema poslovnih dokumenata za usklađenost i reviziju
  • Povećanje točnosti u bilo kojem OCR-u ili cjevovodu za automatizaciju dokumenata

Zajednički izazovi i rješenja

Razvijene slike još uvijek uzrokuju OCR pogreške: Pokušajte različite boje pozadine, pre-filtriranje za buke ili skeniranje visoke rezolucije.

** Izlazne datoteke su prevelike:** Koristite TIFF s kompresijom ili PNG ako je potrebna transparentnost.

Mix formata slike: Normalizirajte sve skeniranje u bez gubitka format prije OCR-a.

Najbolje prakse

  • Uvijek koristite formate slike bez gubitaka za OCR
  • Održati originalne i obrađene slike za referencu
  • Dokumentirajte svoj raspored i digitalizacijski radni protok za tim

FAQ

**Q: Mogu li rasporediti sve slike u jednom dosjeu?**Odgovor: Da, stavite ovaj kod u krug nad svim datotekama, kao što je prikazano u prethodnim primjerima.

**Q: Koja boja pozadine najbolje funkcionira za OCR?**A: Bijela je najsigurnija za tekst; koristite transparentnu za grafiku ili odgovara vašem dokumentu.

**Q: Je li u redu komprimirati datoteke nakon odlaganja?**A: Koristite kompresije bez gubitaka kako biste izbjegli artefakte koji smanjuju točnost OCR-a.

zaključak

Razvijanje s Aspose.Imaging za .NET je nužno za pouzdanu OCR, digitalizaciju i poslovnu automatiziranje. Držite svoj cjevovoda čistim, brzim i točnim! Aspose.Imaging za .NET API reference .

 Hrvatski