Hvordan ta ut tekst fra skannede PDF-er med Aspose.OCR

Hvordan ta ut tekst fra skannede PDF-er med Aspose.OCR

Ekstraktering av tekst fra skannede eller bildebaserte PDF-filer som brukes til å kreve komplekse arbeidsflyter eller dyre manuelle arbeid. Med Aspose.OCR Scanned PDF til Text for .NET, kan du automatisere denne prosessen, konvertere PDFs til søkbar og redigerbar tekst med bare noen få linjer av kode.

Real-verdens problem

Organisasjoner mottar ofte kontrakter, rapporter eller arkiver som skannede PDF-er. Å manuelt kopiere tekst eller søke inne i disse dokumentene er trist og feilaktig, reduserer overholdelse, arkivere og digitale transformasjonsprosjekter.

Oversikt over løsning

Aspose.OCR for .NET lar deg batch prosess skannede PDF-er – konvertere dem til tekst eller søkbare PDF, gjøre informasjon tilgjengelig, indeksert og klar for digitale arbeidsflyter.

Prerequisites

Før du begynner, sørg for at du har:

  • Visual Studio 2019 eller senere
  • .NET 6.0 eller nyere (eller .Net Framework 4.6.2+)
  • Aspose.OCR for .NET fra NuGet
  • grunnleggende C# kunnskap
PM> Install-Package Aspose.OCR

Step-by-step implementering

Steg 1: Installere og konfigurere Aspose.OCR

Legg til NuGet-pakken og referansen Aspose.OCR:

using Aspose.OCR;

Steg 2: Legg til dine skannede PDF-filer

Skap et OcrInput-objekt for PDF-innføring og legg til skannede pdf-filer.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Trinn 3: Konfigurere gjenkjenningsinnstillinger

Konfigurer språk og andre gjenkjenningsinnstillinger for å passe dokumentene dine.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Steg 4: Utfør anerkjennelsesprosessen

Oppdag tekst fra dine skannede PDF-er:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Steg 5: Lagre eller eksportere gjenkjent tekst

Eksporter den gjenkjente teksten til filer, eller konvertere resultatene til søkbare PDF-er.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Steg 6: Legg til feil håndtering

Vrap gjenkjenning i en try/catch blokke for robusthet.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Steg 7: Optimalisere for store eller flersidige PDF-er

  • Behandle PDFs side etter side for store filer
  • Bruk kvalitetsskanning for beste resultater
  • Batch-prosessen i parallell for store samlinger
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Steg 8: Komplett arbeidsmønster

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Bruker tilfeller og applikasjoner

Digital arkivering

Konverter hele biblioteker av skannede dokumenter til søkbare, indeksbare filer for overholdelse og kunnskapshåndtering.

Juridisk og kontraktsstyring

Utveksle kontraktsvilkår eller vilkår fra PDF-er for gjennomgang, automatisering eller digital signering.

Streamlined dokument søk

Muliggjøre rask fulltekst søk i arkiver, kunnskapsbaser, eller case-filer.

Vanlige utfordringer og løsninger

Utfordring 1: lav kvalitet eller nedsatt skanning

Løsning: Bruk forhåndsbehandlingsfiltre og høykvalitetsskanninger hvor det er mulig.

Utfordring 2: Flerspråklige PDF-er

Løsning: Sett språket i gjenkjenningsinnstillinger eller prosesser med flere språkalternativer.

Utfordring 3: Veldig store PDF-filer

Løsning: Prosess i pakker eller per side, og overvåking av minnesbruk.

Performance vurderinger

  • Bruk optimal DPI (300+) for skannede PDF-er
  • Batch-prosessen for best gjennomgang
  • Oppsett OCR-objekter og lukkede filhåndteringer

Beste praksis

  • Validerer OCR-utgaven før videre automatisering
  • Organiser og sikkerhetskopier originale PDF-filer
  • Bruk riktig SaveFormat for arbeidsflyten din
  • Regelmessig oppdatering av Aspose.OCR for nye PDF-funksjoner

Avanserte scenarier

Scenario 1: Utveksle kun spesifikke sider fra en PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenario 2: Eksport til flere formater

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR for .NET lar deg konvertere skannede PDF-er til aktiverbare tekst og søkbare filer – eliminerer manuell innføring og gjør informasjon tilgjengelig for hele organisasjonen.

For mer detaljer og eksempler, se Aspose.OCR for .NET API Referanse .

 Norsk