Hvordan til at udveksle tekst fra scannede PDF'er med Aspose.OCR

Udvinding af tekst fra scannede eller billedbaserede PDF Med Aspose.OCR Scanned PDF til Text for .NET, kan du automatisere denne proces, konvertere PDF’er til søgbare og redigerbare tekst med kun få linjer af kode.

Det virkelige problem

Organisationer modtager ofte kontrakter, rapporter eller arkiver som scannede PDF’er. Manuel kopiering af tekst eller søgning inde i disse dokumenter er kedeligt og fejlfarligt, hvilket sænker overensstemmelse, archivering og digitale transformationsprojekter.

Oversigt over løsning

Aspose.OCR for .NET giver dig mulighed for at pakke scannede PDF’er - omdanne dem til tekst eller søgbare PDF-er, hvilket gør informationen tilgængelig, indexbar og klar til digitale arbejdsprocesser.

Forudsætninger

Før du starter, sørg for at du har:

Visual Studio 2019 eller senere
.NET 6.0 eller nyere (eller .NET Framework 4.6.2+)
Aspose.OCR til .NET fra NuGet
Grundlæggende C# viden

PM> Install-Package Aspose.OCR

Step-by-Step gennemførelse

Trin 1: Installation og konfiguration af Aspose.OCR

Tilføj NuGet pakke og reference Aspose.OCR:

using Aspose.OCR;

Trin 2: Tilføj dine scannede PDF-filer

Skab et OcrInput-objekt for PDF-indtægter og tilføje dine scannede pdf-filer.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Trin 3: Konfigurer genkendelsesindstillinger

Konfigurer sprog og andre genkendelsesindstillinger til at passe dine dokumenter.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Trin 4: Gennemfør anerkendelsesprocessen

Du kan genkende tekst fra dine scannede PDF’er:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Trin 5: Spare eller eksportere anerkendt tekst

Eksporter den anerkendte tekst til filer, eller konvertere resultaterne til søgbare PDF’er.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Trin 6: Tilføj fejlbehandling

Wrap genkendelse i en try/catch blok for robusthed.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Trin 7: Optimerer for store eller flere sider PDF’er

Processer PDFs side efter side for store filer
Brug kvalitetsskanning til de bedste resultater
Batch-processen parallelt til store samlinger

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Trin 8: Fuldt arbejde eksempler

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Brug af tilfælde og applikationer

Digital arkivering

Konverter hele biblioteker af scannede dokumenter til søgbare, indekserbare filer for overholdelse og videnforvaltning.

Juridisk og kontraktstyring

Udvælg kontraktklausuler eller betingelser fra PDF’er til gennemgang, automatisering eller digital underskrift.

Streamlined dokument søgning

Muliggør hurtig fuldtekst søgning i arkiver, videnbaser eller case-filer.

Fælles udfordringer og løsninger

Udfordring 1: Lav kvalitet eller nedskærkede scanninger

Løsning: Brug forarbejdningsfiltre og skanning af høj kvalitet, hvor det er muligt.

Udfordring 2: Flersprogede PDF’er

Løsning: Indstill sproget i genkendelsesindstillinger eller processer med flere sprogmuligheder.

Udfordring 3: Meget store PDF-filer

Løsning: Processer i pakker eller per side, og overvåger hukommelsessystemet.

Performance overvejelser

Brug optimal DPI (300+) til scannede PDF’er
Batch-processen til den bedste gennemgang
OCR-objekter og lukkede filhåndteringer

Bedste praksis

Validerer OCR-udledning før yderligere automatisering
Organiser og backup originale PDF-filer
Brug den korrekte SaveFormat til din arbejdsproces
Regelmæssigt opdaterer Aspose.OCR til nye PDF-funktioner

Avancerede scenarier

Scenario 1: Ekstrakter kun specifikke sider fra en PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenario 2: Eksport til flere formater

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Konklusion

Aspose.OCR for .NET giver dig mulighed for at konvertere scannede PDF’er til aktiverbare tekst og søgbare filer - eliminere manuelle indtægter og gøre oplysninger tilgængelige for hele din organisation.

For flere detaljer og eksempler, se Aspose.OCR til .NET API Reference .