Hvordan forberede skannede bilder for OCR med Deskew ved hjelp av Aspose.Imaging for .NET

Hvordan forberede skannede bilder for OCR med Deskew ved hjelp av Aspose.Imaging for .NET

Accurate OCR (Optical Character Recognition) starter med perfekt tilpassede bilder. Skeved eller roterte skanninger reduserer OKR nøyaktigheten, så dekking er et kritisk preprocessing trinn. Aspose.Imaging for .NET lar deg strekke dokumenter / bilder for beste resultater i ethvert ekstern OCC-verktøy.

Real-verdens problem

OCR-motorer fungerer best på godt tilpassede bilder. Crooked scans forårsaker savnede tegn eller tekstfeil. Manual stråling er for sakte for store partier.

Oversikt over løsning

Bruk Aspose.Imaging for .NET for å skanne skannede bilder automatisk. lagre dem i et tapfritt format som PNG eller TIFF, klar for import til OCR-programvaren din av valg (Asposa.OCR, Tesseract, etc.).

Prerequisites

  • Visual Studio 2019 eller senere
  • .NET 6.0 eller nyere (eller .Net Framework 4.6.2+)
  • Aspose.Imaging for .NET fra NuGet
  • Et skannet dokument eller bilde (JPEG, PNG, TIFF, etc.)
PM> Install-Package Aspose.Imaging

Step-by-step implementering

Steg 1: Slå av den skannede bildet

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Steg 2: Pass dekkede bildene til enhver OCR-motor

  • Bruk ditt foretrukne OCR-verktøy for å gjenkjenne tekst fra det skreddersydde bildet.
  • Eksempel: Import scan_for_ocr_deskewed.png til din OCR pipeline eller programvare (Aspose.OCR, Tesseract, ABBYY, etc.).

Trinn 3: Oversikt og refine

  • Kontrollere OCR-resultater. Hvis nøyaktigheten er lav, justere platt / bakgrunnsinnstillingene eller skannekvaliteten.
  • Tenk på batch-prosessering for alle nye skanninger for å holde din digitalisering arbeidsflyt effektiv.

Bruker tilfeller og applikasjoner

  • Digitalisering av arkiver, resepter, kontrakter eller skjemaer for søkbar tekst
  • Forberedelse av forretningsdokumenter for overholdelse og revisjon
  • Forbedring av nøyaktighet i ethvert OCR- eller dokumentautomatiseringsrør

Vanlige utfordringer og løsninger

Deskved bilder fremdeles forårsaker OCR-feil: Prøv forskjellige bakgrunnsfarger, forhåndsfiltrering for støy, eller høyere oppløsning skanninger.

** Utgangsfiler er for store:** Bruk TIFF med komprimering, eller PNG hvis gjennomsiktighet er nødvendig.

Mix av bildeformater: Normalisere alle skanninger til et tapsløst format før OCR.

Beste praksis

  • Alltid bruk tapfri bildeformater for OCR
  • Lagre originale og behandlede bilder for referanse
  • Dokumenter din disk og digitalisering arbeidsflyt for teamet

FAQ

**Q: Kan jeg pakke ut alle bildene i en mappe?**A: Ja – kast denne koden i en loop over alle filer, som vist i tidligere batch eksempler.

**Q: Hvilken bakgrunnsfarge fungerer best for OCR?**A: Hvit er tryggere for tekst; bruk gjennomsiktig for grafikk, eller matche dokumentet ditt.

**Q: Er det OK å komprimere filer etter avføring?**A: Bruk tapfri komprimering for å unngå artefakter som reduserer OCR nøyaktighet.

Conclusion

Utvikle med Aspose.Imaging for .NET er et must for pålitelig OCR, digitalisering og bedriftsautomasjon. Hold pipeline ren, rask og nøyaktig! Aspose.Imaging for .NET API Referanse .

 Norsk