Hvordan man græder scannede dokumenter til OCR i .NET

Hvordan man græder scannede dokumenter til OCR i .NET

Når du forbereder scannede dokumenter til Optical Character Recognition (OCR), er det afgørende at skære billeder til at fokusere på tekst-tunge områder. Cropping irrelevant dele af dokumentet sikrer, at OCR-softwaren kan udveksle tekst mere præcist og effektivt. Aspose.Imaging for .NET giver de værktøjer, der er nødvendige for at græbe scannet dokument og forbered dem til OCC-behandling.

Fordelene ved Cropping Scanned Documents for OCR

  • Bedre nøjagtighed:- OCR fokuserer på relevante tekst sektioner, undgå støj eller irrelevant indhold.

  • Reduceret behandlingstid:- Plante billedet for at minimere det område, der skal behandles, og accelerere OCR-processen.

  • Bedre tekstudvinding:- Sørg for, at teksten er korrekt tilpasset og velformet til OCR-motorer.

Forudsætninger: Setting Up Aspose.Imaging

  • Install the .Nettet SDK on your system.
  • Tilføj Aspose.Imaging til dit projekt: dotnet add package Aspose.Imaging
  • Obtain a metered license and configure it using SetMeteredKey().

Step-by-Step Guide til Crop Scanned Documents for OCR

Trin 1: Konfigurer den målede licens

Indstill Aspose.Imaging for ubegrænset adgang til græsfunktioner.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Trin 2: Last ned skannede dokumentbilleder

Lade den scannede dokumentfil, der skal opkræves for OCR-forberedelse.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

Trin 3: Bestemm grøntsagerområdet

Definition af det rektangulære område omkring teksten, der skal uddrages.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

Trin 4: Anvend planlægningsoperationen

Use the Crop() method to extract the required text section from the image.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

Steg 5: Spare det skråede billede

Beskyttede billeder til OCR-behandling.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

Udnyttelse og brug

  • Dokumentationssystemer for behandling af dokumenter:- Implementering af græsning i automatiserede dokumentskanningssystemer for at forberede billeder til OCR.

  • OCR Workflow Integration:- Plante dokumenter, før de overføres til OCR-motorer for hurtigere og mere nøjagtig tekstudvinding.

  • Udgangsvalidation:- bn den gravede billede for at sikre, at teksten er tydeligt synlig og ramt korrekt.

Virkelige applikationer

  • Legal og medicinsk dokument skanning:- Crop scannede kontrakter eller medicinske optegnelser for at fokusere på vigtig tekst for OCR behandling.

  • arkiveringssystemer:- Forbered historiske dokumenter til tekstudvinding og digitalisering.

  • E-Government Services er:- Automatisere udvinding af tekst fra scannede formularer eller applikationer.

Vanlige problemer og fixer

  • Uregelmæssigt planteringsområde:- Ensure the Rectangle coordinates match the section with text.

  • Billeder af lav kvalitet:- Sørg for, at det scannede billede har en høj nok opløsning til OCR nøjagtighed.

  • File tilladelser:- Kontrollér, at udgangsdialoger har passende skriftlige tilladelser.

Konklusion

Ved at bruge Aspose.Imaging for .NET kan du nemt samle scannede dokumenter for at fokusere på de vigtige sektioner for OCR-behandling, forbedring af nøjagtighed og effektivitet.

 Dansk