Miten valmistella skannattuja kuvia OCR: lle Deskew avulla .NET: n avulla
Tarkka OCR (Optical Character Recognition) alkaa täydellisesti yhdenmukaistetuilla kuvilla. Skewed tai kierrätetyt skannat vähentävät oCR: n tarkkuutta, joten deskewing on kriittinen preprocessing-vaihe. Aspose.Imaging for .NET antaa sinulle mahdollisuuden valita asiakirjoja / valokuvia parhaan tuloksen saamiseksi kaikissa ulkoisissa OCC-työkaluissa.
Reaalimaailman ongelma
OCR-moottorit toimivat parhaiten hyvin yhdenmukaistetuilla kuvilla. Crooked-skannat aiheuttavat kadonneita merkkejä tai tekstivirheitä. Manuaalinen venyttely on liian hidas suurille kappaleille.
Ratkaisun yleiskatsaus
Käytä Aspose.Imaging .NET skannattuja kuvia automaattisesti. tallentaa ne häviämättömässä muodossa kuten PNG tai TIFF, valmis tuonnin OCR ohjelmisto valinta (Asposa.OCR, Tesseract, jne.).
edellytykset
- Visual Studio 2019 tai uudempi
- .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
- Aspose.Imaging for .NET -ohjelma NuGetistä
- Skannattu asiakirja tai kuva (JPEG, PNG, TIFF jne.)
PM> Install-Package Aspose.Imaging
Vaiheittainen toteutus
Vaihe 1: Poista skannattu kuva
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Vaihe 2: Siirrä kuviot mihin tahansa OCR-moottoriin
- Käytä suosikki OCR-työkalua tunnistamaan tekstiä kuvasta.
- Esimerkki: tuonti
scan_for_ocr_deskewed.png
OCR-putki tai ohjelmisto (Aspose.OCR, Tesseract, ABBYY jne.)
Vaihe 3: Tarkastelu ja uudistus
- Tarkista OCR:n tulokset.Jos tarkkuus on alhainen, säädä pohjan / taustan asetuksia tai skannauslaatua.
- Harkitse kaikkien uusien skannausten pakkausprosessia, jotta digitointivirta pysyy tehokkaana.
Käytä tapauksia ja sovelluksia
- Tiedostojen, vastaanotojen, sopimusten tai lomakkeiden digitointi etsimättömälle tekstille
- Liiketoimintaasiakirjojen valmistelu vaatimustenmukaisuuden ja tarkastuksen osalta
- Tarkkuuden lisääminen missä tahansa OCR:ssä tai asiakirjojen automaation putkissa
Yhteiset haasteet ja ratkaisut
Kohdutetut kuvat aiheuttavat edelleen OCR-virheitä: Kokeile eri taustavärejä, ennalta suodatusta melulle tai korkeamman resoluution skannauksia.
** Lähtötiedostot ovat liian suuria:** Käytä TIFF:ää kompressiolla tai PNG:tä, jos läpinäkyvyys on tarpeen.
Mix of image formats: Normalisoida kaikki skannat häviämättömään muotoon ennen OCR:tä.
Parhaat käytännöt
- Käytä aina häviämättömiä kuvanmuotoja OCR: lle
- Pidä alkuperäisiä ja käsiteltyjä kuvia viittaukseksi
- Dokumentoi työnkulku ja digitaalisuus tiimille
FAQ
**Q: Voinko tallentaa kaikki kuvat kaappiin?**A: Kyllä - laita tämä koodi ympäri kaikkia tiedostoja, kuten edellä esitetyt mallin esimerkit.
**Q: Mikä taustaväri toimii parhaiten OCR: lle?**A: Valkoinen on turvallisin tekstiä varten; käytä läpinäkyviä grafiikoita tai vastaa asiakirjaa.
**Q: Onko se OK tiivistää tiedostoja purkamisen jälkeen?**A: Käytä tappamatonta kompressiota, jotta vältetään OCR: n tarkkuutta vähentäviä esineitä.
johtopäätöksiä
Aspose.Imaging for .NET on välttämätön luotettava OCR, digitalisointi ja liiketoiminnan automaatio. Pidä putki puhdas, nopea ja tarkka! Aspose.Imaging .NET API-referenssille .