Miten valmistella skannattuja kuvia OCR: lle Deskew avulla .NET: n avulla

Miten valmistella skannattuja kuvia OCR: lle Deskew avulla .NET: n avulla

Tarkka OCR (Optical Character Recognition) alkaa täydellisesti yhdenmukaistetuilla kuvilla. Skewed tai kierrätetyt skannat vähentävät oCR: n tarkkuutta, joten deskewing on kriittinen preprocessing-vaihe. Aspose.Imaging for .NET antaa sinulle mahdollisuuden valita asiakirjoja / valokuvia parhaan tuloksen saamiseksi kaikissa ulkoisissa OCC-työkaluissa.

Reaalimaailman ongelma

OCR-moottorit toimivat parhaiten hyvin yhdenmukaistetuilla kuvilla. Crooked-skannat aiheuttavat kadonneita merkkejä tai tekstivirheitä. Manuaalinen venyttely on liian hidas suurille kappaleille.

Ratkaisun yleiskatsaus

Käytä Aspose.Imaging .NET skannattuja kuvia automaattisesti. tallentaa ne häviämättömässä muodossa kuten PNG tai TIFF, valmis tuonnin OCR ohjelmisto valinta (Asposa.OCR, Tesseract, jne.).

edellytykset

  • Visual Studio 2019 tai uudempi
  • .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
  • Aspose.Imaging for .NET -ohjelma NuGetistä
  • Skannattu asiakirja tai kuva (JPEG, PNG, TIFF jne.)
PM> Install-Package Aspose.Imaging

Vaiheittainen toteutus

Vaihe 1: Poista skannattu kuva

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Vaihe 2: Siirrä kuviot mihin tahansa OCR-moottoriin

  • Käytä suosikki OCR-työkalua tunnistamaan tekstiä kuvasta.
  • Esimerkki: tuonti scan_for_ocr_deskewed.png OCR-putki tai ohjelmisto (Aspose.OCR, Tesseract, ABBYY jne.)

Vaihe 3: Tarkastelu ja uudistus

  • Tarkista OCR:n tulokset.Jos tarkkuus on alhainen, säädä pohjan / taustan asetuksia tai skannauslaatua.
  • Harkitse kaikkien uusien skannausten pakkausprosessia, jotta digitointivirta pysyy tehokkaana.

Käytä tapauksia ja sovelluksia

  • Tiedostojen, vastaanotojen, sopimusten tai lomakkeiden digitointi etsimättömälle tekstille
  • Liiketoimintaasiakirjojen valmistelu vaatimustenmukaisuuden ja tarkastuksen osalta
  • Tarkkuuden lisääminen missä tahansa OCR:ssä tai asiakirjojen automaation putkissa

Yhteiset haasteet ja ratkaisut

Kohdutetut kuvat aiheuttavat edelleen OCR-virheitä: Kokeile eri taustavärejä, ennalta suodatusta melulle tai korkeamman resoluution skannauksia.

** Lähtötiedostot ovat liian suuria:** Käytä TIFF:ää kompressiolla tai PNG:tä, jos läpinäkyvyys on tarpeen.

Mix of image formats: Normalisoida kaikki skannat häviämättömään muotoon ennen OCR:tä.

Parhaat käytännöt

  • Käytä aina häviämättömiä kuvanmuotoja OCR: lle
  • Pidä alkuperäisiä ja käsiteltyjä kuvia viittaukseksi
  • Dokumentoi työnkulku ja digitaalisuus tiimille

FAQ

**Q: Voinko tallentaa kaikki kuvat kaappiin?**A: Kyllä - laita tämä koodi ympäri kaikkia tiedostoja, kuten edellä esitetyt mallin esimerkit.

**Q: Mikä taustaväri toimii parhaiten OCR: lle?**A: Valkoinen on turvallisin tekstiä varten; käytä läpinäkyviä grafiikoita tai vastaa asiakirjaa.

**Q: Onko se OK tiivistää tiedostoja purkamisen jälkeen?**A: Käytä tappamatonta kompressiota, jotta vältetään OCR: n tarkkuutta vähentäviä esineitä.

johtopäätöksiä

Aspose.Imaging for .NET on välttämätön luotettava OCR, digitalisointi ja liiketoiminnan automaatio. Pidä putki puhdas, nopea ja tarkka! Aspose.Imaging .NET API-referenssille .

 Suomi