Ako pripraviť skenované obrázky pre OCR s Deskew pomocou .NET

Ako pripraviť skenované obrázky pre OCR s Deskew pomocou .NET

Presné OCR (Optical Character Recognition) začína s dokonale zosúladenými obrazmi.Skewed alebo rotated scans znižujú presnosť oCR, takže deskewing je kritickým krokom predbežného spracovania.Aspose.Imaging pre .NET vám umožňuje strieľať dokumenty / fotografie pre najlepšie výsledky v akomkoľvek externom nástroji OCC.

Reálny svetový problém

OCR motory pracujú najlepšie na dobre zosúladených snímkach. Crooked scans spôsobujú chýbajúce znaky alebo textové chyby.

Prehľad riešenia

Použite Aspose.Imaging pre .NET automaticky odstraňovať skenované obrázky. uložiť ich v bezproblémovom formáte, ako je PNG alebo TIFF, pripravený na import do vášho OCR softvéru voľby (ASPOSE.OCR, Tesseract, atď.).

Predpoklady

  • Visual Studio 2019 alebo neskôr
  • .NET 6.0 alebo novší (alebo .Net Framework 4.6.2+)
  • Aspose.Imaging pre .NET z NuGet
  • Skenovaný dokument alebo obrázok (JPEG, PNG, TIFF atď.)
PM> Install-Package Aspose.Imaging

krok za krokom implementácia

Krok 1: Odstráňte skenovaný obrázok

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Krok 2: Prejdite rozmazané obrázky do akéhokoľvek motora OCR

  • Použite svoj obľúbený nástroj OCR na rozpoznanie textu z vymazaného obrazu.
  • Príklad : dovoz scan_for_ocr_deskewed.png do vášho OCR potrubia alebo softvéru (Aspose.OCR, Tesseract, ABBYY, atď.).

Krok 3: Preskúmať a opraviť

  • Skontrolujte výsledky OCR. Ak je presnosť nízka, upravte nastavenia odkladu / pozadia alebo kvalitu skenovania.
  • Zvážte spracovanie balíkov pre všetky nové skenovanie, aby sa váš pracovný tok digitalizácie udržal efektívnym.

Použitie prípadov a aplikácií

  • Digitalizácia archívov, recepcií, zmlúv alebo formulárov pre vyhľadávateľný text
  • Príprava obchodných dokumentov na dodržiavanie a audit
  • Zvýšenie presnosti v akomkoľvek potrubí OCR alebo automatizácie dokumentov

Spoločné výzvy a riešenia

Deskvrdené obrázky stále spôsobujú chyby OCR: Vyskúšajte rôzne farby pozadia, predfiltrovanie pre hluk alebo vyššie rozlíšenie skenovania.

** Výstupné súbory sú príliš veľké:** Použite TIFF s kompresiou alebo PNG, ak je potrebná transparentnosť.

Mix obrazových formátov: Normalizujte všetky skenovanie do bezproblémového formátu pred OCR.

Najlepšie postupy

  • Vždy používať bezproblémové formáty obrazu pre OCR
  • Udržiavať originálne a spracované obrázky pre referencie
  • Dokumentácia vášho pracovného toku a digitalizácie pre tím

FAQ

**Q: Môžem rozdeliť všetky obrázky do priečinka?**Odpoveď: Áno – vložte tento kód do kruhu nad všetkými súbormi, ako je uvedené v predchádzajúcich príkladoch.

**Q: Ktorá farba pozadia funguje najlepšie pre OCR?**Odpoveď: Biela je najbezpečnejšia pre text; používať transparentné pre grafiku, alebo zhodovať váš dokument.

**Q: Je v poriadku komprimovať súbory po odkladaní?**A: Použite kompresie bez straty, aby ste sa vyhli artefaktom, ktoré znižujú presnosť OCR.

Záver

Rozšírenie s Aspose.Imaging pre .NET je nevyhnutné pre spoľahlivé OCR, digitalizáciu a obchodnú automatizáciu. Udržujte svoju potrubie čistú, rýchlu a presnú! Aspose.Imaging pre .NET API Reference .

 Slovenčina