Hvordan man ekstrakter tekst fra scannede billeder med Aspose.OCR

Hvordan man ekstrakter tekst fra scannede billeder med Aspose.OCR

Scanning af kontrakter, aftaler, bogsider eller gamle optegnelser normalt producerer billedfiler – ikke redigerbar tekst. Aspose.OCR Scan to Text for .NET giver dig mulighed for at automatisere udvinding af struktureret, søgbart tekst fra et scannet dokument eller foto, sparer uendelige timer med manuelt indtastning.

Det virkelige problem

Papirdokumenter, bøger og arkiver opbevares ofte som billeder. Ekstraktering af deres indhold til digitale arbejdsproces, overensstemmelse eller forskning kan være langsomt, dyrt og tilbøjeligt til fejl, hvis det gøres manuelt.

Oversigt over løsning

Aspose.OCR Scan to Text for .NET omdanner billeder af trykte sider til brugbar tekst, håndterer enkeltkolonne, multi-colonne og komplekse layouter. Arbejdsflydelsen er perfekt til digitalisering af kontrakter, bøger, optegnelser og forretningsdokumenter til moderne brug.

Forudsætninger

Sørg for at du har:

  • Visual Studio 2019 eller senere
  • .NET 6.0 eller nyere (eller .Net Framework 4.6.2+)
  • Aspose.OCR til .NET fra NuGet
  • Grundlæggende C# viden
PM> Install-Package Aspose.OCR

Step-by-Step gennemførelse

Trin 1: Installation og konfiguration af Aspose.OCR

Tilføj NuGet pakke og reference Aspose.OCR:

using Aspose.OCR;

Trin 2: Tilføj dine scannede billeder

Lade enkelt eller flere billedfiler til at blive behandlet.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Trin 3: Konfigurer genkendelsesindstillinger

Tune for dokumentsprog og layout som nødvendigt.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Trin 4: Gennemfør anerkendelsesprocessen

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Trin 5: Spare eller behandle den udvundne tekst

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Trin 6: Tilføj fejlbehandling

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Trin 7: Optimering af dokumentlayout

  • For bøger eller artikler, brug DetectAreasMode.DOCUMENT eller prøv DetektAreaModa.AUTO
  • Forarbejdning af billeder (crop, deskew) for bedste nøjagtighed
  • Batch-processen til store arkiver
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Trin 8: Fuld eksempler

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Brug af tilfælde og applikationer

Kontrakt og aftale Digitalisering

Hurtigt digitalisere juridiske eller forretningsdokumenter til søgning, arkivering og digitale arbejdsprocesser.

Bøger og arkivering

Konverter bogsider eller historiske optegnelser til søgbare, redigerbare formater.

Overensstemmelse og dataudvinding

Tillad automatisk overholdelseskontrol, auditering eller tekstudvinding fra arvede dokumenter.

Fælles udfordringer og løsninger

Udfordring 1: Low-Quality Scans eller Faded Text

Løsning: Brug forbehandling eller forbedring af billeder for bedre OCR nøjagtighed.

Udfordring 2: Multi-kolonne eller komplekse layouter

Løsning: Tilpasse DetectAreasMode og test for den bedste layout håndtering.

Udfordring 3: Batch Digitalisering

Løsning: Brug batchbearbejdning og ressourceforvaltning til store job.

Performance overvejelser

  • Batch-processen til hastighed og skalerbarhed
  • Brug gode kildebilleder
  • OCR-objekter efter brug

Bedste praksis

  • Altid validerer udvundet tekst før automatisering eller arkivering
  • Brug korrekte genkendelsesindstillinger for dokumenttype
  • Backup oprindelige scanninger for reference
  • Test OCR resultater på et prøvepakke før produktion

Avancerede scenarier

Scenario 1: Multi-Language Dokumentekstraktion

settings.Language = Language.French;

Scenario 2: Eksport til JSON for integration

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Konklusion

Aspose.OCR Scan to Text for .NET er den hurtigste måde at konvertere scannede billeder og papirdokumenter til brugbar, redigerbar tekst – ideel til juridiske, akademiske eller virksomhedsprojekter.

Se flere eksempler og tekniske detaljer i Aspose.OCR til .NET API Reference .

 Dansk