Hvordan man græder scannede dokumenter til OCR i .NET
Når du forbereder scannede dokumenter til Optical Character Recognition (OCR), er det afgørende at skære billeder til at fokusere på tekst-tunge områder. Cropping irrelevant dele af dokumentet sikrer, at OCR-softwaren kan udveksle tekst mere præcist og effektivt. Aspose.Imaging for .NET giver de værktøjer, der er nødvendige for at græbe scannet dokument og forbered dem til OCC-behandling.
Fordelene ved Cropping Scanned Documents for OCR
Bedre nøjagtighed:- OCR fokuserer på relevante tekst sektioner, undgå støj eller irrelevant indhold.
Reduceret behandlingstid:- Plante billedet for at minimere det område, der skal behandles, og accelerere OCR-processen.
Bedre tekstudvinding:- Sørg for, at teksten er korrekt tilpasset og velformet til OCR-motorer.
Forudsætninger: Setting Up Aspose.Imaging
- Install the .Nettet SDK on your system.
- Tilføj Aspose.Imaging til dit projekt:
dotnet add package Aspose.Imaging
- Obtain a metered license and configure it using
SetMeteredKey()
.
Step-by-Step Guide til Crop Scanned Documents for OCR
Trin 1: Konfigurer den målede licens
Indstill Aspose.Imaging for ubegrænset adgang til græsfunktioner.
using Aspose.Imaging;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Trin 2: Last ned skannede dokumentbilleder
Lade den scannede dokumentfil, der skal opkræves for OCR-forberedelse.
string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
Console.WriteLine($"Loaded scanned document: {inputPath}");
}
Trin 3: Bestemm grøntsagerområdet
Definition af det rektangulære område omkring teksten, der skal uddrages.
var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");
Trin 4: Anvend planlægningsoperationen
Use the Crop()
method to extract the required text section from the image.
image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");
Steg 5: Spare det skråede billede
Beskyttede billeder til OCR-behandling.
image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");
Udnyttelse og brug
Dokumentationssystemer for behandling af dokumenter:- Implementering af græsning i automatiserede dokumentskanningssystemer for at forberede billeder til OCR.
OCR Workflow Integration:- Plante dokumenter, før de overføres til OCR-motorer for hurtigere og mere nøjagtig tekstudvinding.
Udgangsvalidation:- bn den gravede billede for at sikre, at teksten er tydeligt synlig og ramt korrekt.
Virkelige applikationer
Legal og medicinsk dokument skanning:- Crop scannede kontrakter eller medicinske optegnelser for at fokusere på vigtig tekst for OCR behandling.
arkiveringssystemer:- Forbered historiske dokumenter til tekstudvinding og digitalisering.
E-Government Services er:- Automatisere udvinding af tekst fra scannede formularer eller applikationer.
Vanlige problemer og fixer
Uregelmæssigt planteringsområde:- Ensure the
Rectangle
coordinates match the section with text.Billeder af lav kvalitet:- Sørg for, at det scannede billede har en høj nok opløsning til OCR nøjagtighed.
File tilladelser:- Kontrollér, at udgangsdialoger har passende skriftlige tilladelser.
Konklusion
Ved at bruge Aspose.Imaging for .NET kan du nemt samle scannede dokumenter for at fokusere på de vigtige sektioner for OCR-behandling, forbedring af nøjagtighed og effektivitet.