Com plantar documents escanats per a OCR en .NET

Com plantar documents escanats per a OCR en .NET

En la preparació de documents escanats per a Reconeixement de caràcters òptics (OCR), és essencial que les imatges es col·locin per centrar-se en àrees pesades pel text. El cropiment de parts irrellevants del document garanteix que el programari OCR pugui extreure el text amb més precisió i eficiència. Aspose.Imaging per .NET proporciona les eines necessàries per cultivar els documents scannats i preparar-los per al tractament de l’OCR.

Beneficis de Cropping Scanned Documents per a OCR

  • Millora de la precisi:- Concentreu els esforços de l’OCR en les seccions de text pertinents, evitant el soroll o el contingut irrellevant.

  • Reducció del temps de processament:- Creu l’imatge per minimitzar l’àrea que s’ha de processar, accelerat el procés de l’OCR.

  • Millor Extracció de text:- Assegureu-vos que el text és adequadament alineat i ben format per als motors OCR.

Previsió: Setting Up Aspose.Imaging

  • Install the .NET i SDK on your system.
  • Afegeix Aspose.Imaging al teu projecte: dotnet add package Aspose.Imaging
  • Obtain a metered license and configure it using SetMeteredKey().

Guia de pas a pas sobre els documents escanats de cultiu per a OCR

Pas 1: Configure la Llicència Metrada

Instal·la Aspose.Imaging per a l’accés il·limitat a les característiques d’escorça.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Pas 2: Carregar la imatge de document escanat

Carregar el fitxer de document escanejat que ha de ser gravat per a la preparació de l’OCR.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

Pas 3: Definició de l’àrea de cultiu

Defineix la zona rectangular al voltant del text que cal extreure.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

Pas 4: Apliqueu l’operació de la plantació

Use the Crop() method to extract the required text section from the image.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

Pas 5: Salvar la imatge creada

Salvar la imatge creada per al processament OCR.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

La implementació i l’ús

  • Sistemes de processament de documents:- Implementació de la crosta en sistemes d’escaneig automàtic de documents per preparar imatges per a OCR.

  • Integració del flux de treball de l’OCR:- Documents de cultiu abans de transmetre’ls als motors OCR per a l’extracció de text més ràpida i més exacta.

  • Validació de la sortida:- Obre la imatge creada per assegurar-se que el text és clarament visible i marcada correctament.

Aplicacions del món real

  • Escanvi de documents legals i mèdics:- Contracte escanejat o registres mèdics per centrar-se en el text important per al tractament d’OCR.

  • Sistemes d’arxiu:- Preparar documents històrics per a l’extracció de text i la digitalitzaci.

  • Serveis de govern electrònic:- Automatitzar l’extracció de text de formularis o aplicacions escanejades.

Problemes comuns i fixos

  • Area de cultiu incorrecta:- Ensure the Rectangle coordinates match the section with text.

  • Imatges de baixa qualitat:- Assegureu-vos que la imatge escanejada té una resolució suficientment alta per a la precisió de l’OCR.

  • Permissió de fitxers:- Verifiqueu que els directoris de sortides tenen les permissions d’escriptura adequades.

Conclusió

Mitjançant l’ús de Aspose.Imaging per .NET, es pot col·locar fàcilment documents escanats per centrar-se en les seccions importants per al tractament d’OCR, millorar la precisió i eficiència. Aquesta solució és ideal per a fluxos de treball automatitzats en la gestió de documents, els sistemes legals i la salut.

 Català