Hur man extraherar text från skannade PDF-filer med Aspose.OCR

Hur man extraherar text från skannade PDF-filer med Aspose.OCR

Extrahera text från skannade eller bildbaserade PDF-filer som används för att kräva komplexa arbetsflöden eller dyrt manuellt arbete. Med Aspose.OCR Scanned PDF till Text för .NET kan du automatisera denna process, konvertera PDFs till sökbar och redigerbar text med bara några rader kod.

Realvärldsproblem

Organisationer får ofta avtal, rapporter eller arkiv som skannade PDF-filer. Manuellt kopiera text eller söka inuti dessa dokument är tråkigt och felaktigt, saktar efterlevnad, arkivering och digitala omvandlingsprojekt.

Översikt över lösningen

Aspose.OCR för .NET låter dig packa processen skannade PDF-filer – konvertera dem till text eller sökbara PDF, vilket gör informationen tillgänglig, indexbar och redo för digitala arbetsflöden.

förutsättningar

Innan du börjar, se till att du har:

  • Visual Studio 2019 eller senare
  • .NET 6.0 eller senare (eller .Net Framework 4.6.2+)
  • Aspose.OCR för .NET från NuGet
  • Grundläggande C# kunskap
PM> Install-Package Aspose.OCR

Steg för steg genomförande

Steg 1: Installera och konfigurera Aspose.OCR

Lägg till NuGet-paketet och referens Aspose.OCR:

using Aspose.OCR;

Steg 2: Lägg till dina skannade PDF-filer

Skapa ett OcrInput-objekt för PDF-inträde och lägg till dina skannade pdf-filer.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Steg 3: Konfigurera identifieringsinställningar

Konfigurera språk och andra erkännandeinställningar för att passa dina dokument.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Steg 4: Kör erkännandeprocessen

Upptäck text från dina skannade PDF-filer:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Steg 5: Spara eller exportera erkänd text

Exportera den erkända texten till filer eller konvertera resultaten till sökbara PDF-filer.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Steg 6: Lägg till felhantering

Wrap erkännande i en try/catch block för robusthet.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Steg 7: Optimera för stora eller flersidiga PDF-filer

  • Processera PDFs sida per sida för stora filer
  • Använd högkvalitativa skanningar för bästa resultat
  • Batchprocessen parallellt för stora samlingar
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Steg 8: Komplett arbetsexempel

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Använd fall och applikationer

Digital arkivering

Konvertera hela bibliotek av skannade dokument till sökbara, indexbara filer för överensstämmelse och kunskapshantering.

Rättslig och kontrakthantering

Extract avtalsklausuler eller villkor från PDF-filer för granskning, automatisering eller digital signatur.

Streamlined dokument sökning

Tillåta snabb fulltext sökning i arkiv, kunskapsbaser eller fallfiler.

Gemensamma utmaningar och lösningar

Utmaning 1: Lågkvalitet eller nedsatt skanning

Lösning: Använd förbearbetningsfilter och högkvalitativa skanningar där det är möjligt.

Utmaning 2: Flerspråkiga PDF-filer

Lösning: Ställ in språket i erkännandeinställningar eller processer med flera språkalternativ.

Utmaning 3: Mycket stora PDF-filer

Lösning: Process i batch eller per sida, och övervaka användningen av minnet.

Prestanda överväganden

  • Använd optimal DPI (300+) för skannade PDF-filer
  • Batchprocess för bästa genomgång
  • Tillhandahålla OCR-objekt och långa filhandlar

Bästa praxis

  • Validerar OCR-utgången före ytterligare automatisering
  • Organisera och säkerhetskopiera original PDF-filer
  • Använd rätt SaveFormat för din arbetsflöde
  • Regelbunden uppdatering av Aspose.OCR för nya PDF-funktioner

Avancerade scenarier

Scenario 1: Extract Only Specific Pages from a PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenario 2: Export till flera format

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

slutsatser

Aspose.OCR för .NET låter dig konvertera skannade PDF-filer till aktiverbara text- och sökbara filer – eliminerar manuell inmatning och gör information tillgänglig för hela organisationen.

För mer detaljer och exempel, se Aspose.OCR för .NET API Referens .

 Svenska