Hur man extraherar text från skannade bilder med Aspose.OCR

Hur man extraherar text från skannade bilder med Aspose.OCR

Skanningen av kontrakt, avtal, boksidor eller gamla register producerar vanligtvis bildfiler – inte redigerbar text. Aspose.OCR Scan to Text for .NET gör att du kan automatisera utvinning av strukturerad, sökbart text från någon skannad dokument eller foto, vilket sparar otaliga timmar av manuell inmatning.

Realvärldsproblem

Pappersdokument, böcker och arkiv lagras ofta som bilder. Att extrahera innehållet för digitala arbetsflöden, överensstämmelse eller forskning kan vara långsamt, dyrt och sannolikt att misslyckas om det görs manuellt.

Översikt över lösningen

Aspose.OCR Scan to Text för .NET konverterar bilder av tryckta sidor till användbar text, hanterar en kolumn, flera kolumner och komplexa layouter. Arbetsflödet är perfekt för digitalisering av kontrakt, böcker, register och affärshandlingar för modern användning.

förutsättningar

Se till att du har:

  • Visual Studio 2019 eller senare
  • .NET 6.0 eller senare (eller .Net Framework 4.6.2+)
  • Aspose.OCR för .NET från NuGet
  • Grundläggande C# kunskap
PM> Install-Package Aspose.OCR

Steg för steg genomförande

Steg 1: Installera och konfigurera Aspose.OCR

Lägg till NuGet-paketet och referens Aspose.OCR:

using Aspose.OCR;

Steg 2: Lägg till dina skannade bilder

Ladda upp en eller flera bildfiler för bearbetning.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Steg 3: Konfigurera identifieringsinställningar

Tune för dokumentspråk och layout som behövs.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Steg 4: Kör erkännandeprocessen

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Steg 5: Spara eller behandla den extraherade texten

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Steg 6: Lägg till felhantering

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Steg 7: Optimera för dokument layouter

  • För böcker eller artiklar, använd DetectAreasMode.DOCUMENT eller försök DetektAreaModa.AUTO
  • Preprocess bilder (crop, deskew) för bästa noggrannhet
  • Batchprocess för stora arkiv
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Steg 8: Ett fullständigt exempel

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Använd fall och applikationer

Avtal och avtal Digitalisering

Snabbt digitalisera juridiska eller affärsdokument för sökning, arkivering och digitala arbetsflöden.

Bok och arkiv bearbetning

Konvertera boksidor eller historiska register till sökbara, redigerbara format.

Uppfyllande och datautvinning

Tillåter automatiska överensstämmelse kontroller, revisioner eller textutvinning från arvdokument.

Gemensamma utmaningar och lösningar

Utmaning 1: Lågkvalitativa skanningar eller nedsatt text

Lösning: Använd förbehandling eller förbättra bilder för bättre OCR noggrannhet.

Utmaning 2: Multi-kolumn eller komplex layout

Lösning: Anpassa DetectAreasMode och testa för bästa layouthantering.

Utmaning 3: Batch Digitalisering

Lösning: Använd batchbehandling och resurshantering för storskaliga jobb.

Prestanda överväganden

  • Batchprocess för hastighet och skalbarhet
  • Använd bra kvalitet källbilder
  • Tillhandahålla OCR-objekt efter användning

Bästa praxis

  • Validerar alltid extraherad text innan du automatiserar eller arkiverar
  • Använd rätt identifieringsinställningar för dokumenttyp
  • Backup originalskanning för referens
  • OCR-testresultat på en provpackning före produktion

Avancerade scenarier

Scenario 1: Flerspråkig dokumentutvinning

settings.Language = Language.French;

Scenario 2: Export till JSON för integration

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

slutsatser

Aspose.OCR Scan to Text för .NET är det snabbaste sättet att omvandla scannade bilder och pappersdokument till användbar, redigerbar text – perfekt för juridiska, akademiska eller företagsprojekt.

Se fler exempel och tekniska detaljer i Aspose.OCR för .NET API Referens .

 Svenska