Hvordan man forbereder scannede billeder til OCR med Deskew ved hjælp af .NET

Hvordan man forbereder scannede billeder til OCR med Deskew ved hjælp af .NET

Accurate OCR (Optical Character Recognition) begynder med perfekt alignede billeder. Skewed eller roterede scans reducerer oCR nøjagtighed, så deskewing er et kritisk præ-processing skridt. Aspose.Imaging for .NET giver dig mulighed for at strække dokumenter / fotos for de bedste resultater i ethvert eksternt ocr værktøj.

Det virkelige problem

OCR-motorer fungerer bedst på velalignede billeder. Crooked scans forårsager savnede tegn eller tekstfejl. Manual strækning er for langsom for store batches.

Oversigt over løsning

Brug Aspose.Imaging for .NET til at skanne scannede billeder automatisk. gem dem i et tabløst format som PNG eller TIFF, klar til import i din OCR-software af valg (Asposa.OCR, Tesseract, etc.).

Forudsætninger

  • Visual Studio 2019 eller senere
  • .NET 6.0 eller nyere (eller .Net Framework 4.6.2+)
  • Aspose.Imaging for .NET fra NuGet
  • Et scannet dokument eller billede (JPEG, PNG, TIFF osv.)
PM> Install-Package Aspose.Imaging

Step-by-Step gennemførelse

Trin 1: Afskær det scannede billede

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Trin 2: Pass nedskærkede billeder til ethvert OCR-motor

  • Brug dit foretrukne OCR-værktøj til at genkende tekst fra det afskåret billede.
  • Eksempel: Import scan_for_ocr_deskewed.png ind i din OCR pipeline eller software (Aspose.OCR, Tesseract, ABBYY osv.).

Trin 3: Overvej og refine

  • Kontroller OCR-resultater. Hvis nøjagtigheden er lav, justerer du placeringerne i dæk/bakgrunden eller skanningskvaliteten.
  • Overvej batch-processering for alle nye scanninger for at holde din digitalisering arbejdsproces effektiv.

Brug af tilfælde og applikationer

  • Digitalisering af arkiver, modtagelser, kontrakter eller formularer til søgningsbart tekst
  • Forberedelse af forretningsdokumenter til overholdelse og revision
  • Forbedring af nøjagtighed i ethvert OCR eller dokumentautomation pipe

Fælles udfordringer og løsninger

Deskævede billeder forårsager stadig OCR-fejl: Prøv forskellige baggrundsfarver, forudfiltrering for støj eller højere opløsningsscanning.

Output filer er for store: Brug TIFF med kompression, eller PNG, hvis gennemsigtighed er nødvendig.

Mix af billedformat: Normaliser alle scanninger til et tabløst format før OCR.

Bedste praksis

  • Brug altid tabløse billedformater til OCR
  • Hold oprindelige og bearbejdede billeder til reference
  • Dokumenter din deskew og digitalisering arbejdsproces for teamet

FAQ

**Q: Kan jeg udskifte alle billeder i en mappe?**A: Ja – vrag denne kode i en loop over alle filer, som vist i tidligere batch eksempler.

**Q: Hvilken baggrundsfarve fungerer bedst for OCR?**A: Hvid er den sikreste for tekst; brug gennemsigtig for grafik, eller match dit dokument.

**Q: Er det OK at komprimere filer efter deskew?**A: Brug tabløs kompression for at undgå artefakter, der reducerer OCR nøjagtighed.

Konklusion

Deskewing med Aspose.Imaging for .NET er en nødvendighed for pålidelig OCR, digitalisering og forretningsautomation. Hold din pipeline ren, hurtig og nøjagtig! Aspose.Imaging for .NET API Reference .

 Dansk