Hur man extraherar text från skannade PDF-filer med Aspose.OCR

Extrahera text från skannad eller bildbaserad PDF Filer som används för att kräva komplexa arbetsflöden eller dyrt manuellt arbete. Med Aspose.OCR Scanned PDF till Text för .NET kan du automatisera denna process, konvertera PDF-filer till sökbar och redigerbar text med bara några rader kod.

Realvärldsproblem

Organisationer får ofta avtal, rapporter eller arkiv som skannade PDF-filer. Manuellt kopiera text eller söka inuti dessa dokument är tråkigt och felaktigt, saktar efterlevnad, arkivering och digitala omvandlingsprojekt.

Översikt över lösningen

Aspose.OCR för .NET låter dig packa processen skannade PDF-filer – konvertera dem till text eller sökbara PDF, vilket gör informationen tillgänglig, indexbar och redo för digitala arbetsflöden.

förutsättningar

Innan du börjar, se till att du har:

Visual Studio 2019 eller senare
.NET 6.0 eller senare (eller .NET Framework 4.6.2+)
Aspose.OCR för .NET från NuGet
Grundläggande C# kunskap

PM> Install-Package Aspose.OCR

Steg för steg genomförande

Steg 1: Installera och konfigurera Aspose.OCR

Lägg till NuGet-paketet och referens Aspose.OCR:

using Aspose.OCR;

Steg 2: Lägg till dina skannade PDF-filer

Skapa ett OcrInput-objekt för PDF-inträde och lägg till dina skannade pdf-filer.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Steg 3: Konfigurera identifieringsinställningar

Konfigurera språk och andra erkännandeinställningar för att passa dina dokument.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Steg 4: Kör erkännandeprocessen

Upptäck text från dina skannade PDF-filer:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Steg 5: Spara eller exportera erkänd text

Exportera den erkända texten till filer eller konvertera resultaten till sökbara PDF-filer.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Steg 6: Lägg till felhantering

Wrap erkännande i en try/catch block för robusthet.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Steg 7: Optimera för stora eller flersidiga PDF-filer

Processera PDFs sida per sida för stora filer
Använd högkvalitativa skanningar för bästa resultat
Batchprocessen parallellt för stora samlingar

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Steg 8: Komplett arbetsexempel

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Använd fall och applikationer

Digital arkivering

Konvertera hela bibliotek av skannade dokument till sökbara, indexbara filer för överensstämmelse och kunskapshantering.

Rättslig och kontrakthantering

Extract avtalsklausuler eller villkor från PDF-filer för granskning, automatisering eller digital signatur.

Streamlined dokument sökning

Tillåta snabb fulltext sökning i arkiv, kunskapsbaser eller fallfiler.

Gemensamma utmaningar och lösningar

Utmaning 1: Lågkvalitet eller nedsatt skanning

Lösning: Använd förbearbetningsfilter och högkvalitativa skanningar där det är möjligt.

Utmaning 2: Flerspråkiga PDF-filer

Lösning: Ställ in språket i erkännandeinställningar eller processer med flera språkalternativ.

Utmaning 3: Mycket stora PDF-filer

Lösning: Process i batch eller per sida, och övervaka användningen av minnet.

Prestanda överväganden

Använd optimal DPI (300+) för skannade PDF-filer
Batchprocess för bästa genomgång
Tillhandahålla OCR-objekt och långa filhandlar

Bästa praxis

Validerar OCR-utgången före ytterligare automatisering
Organisera och säkerhetskopiera original PDF-filer
Använd rätt SaveFormat för din arbetsflöde
Regelbunden uppdatering av Aspose.OCR för nya PDF-funktioner

Avancerade scenarier

Scenario 1: Extract Only Specific Pages from a PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenario 2: Export till flera format

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

slutsatser

Aspose.OCR för .NET låter dig konvertera skannade PDF-filer till aktiverbara text- och sökbara filer – eliminerar manuell inmatning och gör information tillgänglig för hela organisationen.

För mer detaljer och exempel, se Aspose.OCR för .NET API Referens .