Kaip paruošti skenuojamus vaizdus OCR su Deskew naudojant Aspose.Imaging .NET

Kaip paruošti skenuojamus vaizdus OCR su Deskew naudojant Aspose.Imaging .NET

Tikslus OCR (Optical Character Recognition) prasideda su puikiai suderintais vaizdais. Skewed arba rotuoti skenavimas sumažina OKR tikslumą, taigi deskewing yra kritinis išankstinio apdorojimo žingsnis. Aspose.Imaging .NET leidžia surinkti dokumentus / nuotraukas, kad gautumėte geriausius rezultatus bet kokiame išoriniame OCR įrankyje.

Realaus pasaulio problemos

OCR varikliai geriausiai veikia gerai suderintais vaizdais. „Crooked“ skenavimas sukelia praleistus simbolius ar teksto klaidas.

Sprendimo apžvalga

Naudokite „Aspose.Imaging“ .NET, kad automatiškai nuskaityti vaizdus. Išsaugokite juos be nuostolių formatu, pvz., PNG arba TIFF, pasiruošę importuoti į jūsų pasirinktą OCR programinę įrangą (aspos.OCR, Tesseract ir kt.).

Prerequisites

  • „Visual Studio 2019“ arba vėliau
  • .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
  • Aspose.Imaging .NET iš NuGet
  • Skanytas dokumentas arba vaizdas (JPEG, PNG, TIFF ir kt.)
PM> Install-Package Aspose.Imaging

Žingsnis po žingsnio įgyvendinimas

1 žingsnis: atsisiųskite skenuojamą vaizdą

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

2 žingsnis: perkelti iškeltus vaizdus į bet kurį OCR variklį

  • Naudokite savo pageidaujamą OCR įrankį, kad atpažintumėte tekstą iš iškeltos nuotraukos.
  • Pavyzdys: importas scan_for_ocr_deskewed.png į jūsų OCR vamzdį ar programinę įrangą (Aspose.OCR, Tesseract, ABBYY ir kt.).

3 žingsnis: apžvalga ir atnaujinimas

  • Patikrinkite OCR rezultatus. jei tikslumas yra mažas, pritaikykite plokštės / grindų nustatymus arba skenavimo kokybę.
  • Apsvarstykite visus naujus skenavimus, kad jūsų skaitmeninimo darbo srautas būtų efektyvus.

Naudokite atvejus ir paraiškas

  • Skaitmenizuoti archyvus, įrašų, sutarčių ar formų paieškos tekstą
  • Verslo dokumentų rengimas laikymosi ir audito tikslais
  • Padidinti tikslumą bet kuriame OCR ar dokumentų automatizavimo vamzdelyje

Bendrieji iššūkiai ir sprendimai

Atslėptos nuotraukos vis dar sukelia OCR klaidas: Išbandykite skirtingus fonos spalvas, iš anksto filtruojant triukšmą ar aukštesnės rezoliucijos skenavimus.

** Išleidimo failai yra per dideli:** Jei reikia skaidrumo, naudokite TIFF su suspaudimu arba PNG.

Paveikslų formatų mišinys: Normalizuokite visus skenavimus į neprarastą formatą prieš OCR.

Geriausios praktikos

  • Visada naudokite be nuostolių vaizdo formatus OCR
  • Išsaugokite originalias ir apdorotas nuotraukas nuorodoms
  • Dokumentuokite savo diską ir skaitmeninimo darbo srautą komandai

FAQ

**Q: Ar galiu išjungti visus vaizdus vienoje aplinkoje?**Atsakymas: Taip – šitą kodą įpilkite ant visų failų, kaip parodyta ankstesniais batch pavyzdžiais.

**Q: Kokia fonos spalva geriausiai veikia OCR?**A: Balta yra saugiausia tekstui; naudokite skaidrų grafiką arba atitinka jūsų dokumentą.

**Q: Ar gerai suspausti failus po išjungimo?**A: Naudokite kompresiją be nuostolių, kad išvengtumėte artefaktų, kurie sumažina OCR tikslumą.

Conclusion

Atskleisti su Aspose.Imaging .NET yra privalumas patikimai OCR, skaitmeninimo ir verslo automatizavimo. išlaikyti savo vamzdyną švarus, greitas ir tikslus! Aspose.Imaging .NET API nuoroda .

 Lietuvių