Hoe tekst uit gescande PDF's te extraheren met Aspose.OCR

Hoe tekst uit gescande PDF's te extraheren met Aspose.OCR

Het extraheren van tekst uit gescannen of afbeeldingsgebaseerde PDF-bestanden die worden gebruikt om complexe werkstromen of dure handwerk te vereisen. met Aspose.OCR Scanned PDF naar Text voor .NET, kunt u dit proces automatiseren, PDF’s converteren naar zoekbare en bewerkt tekst met slechts een paar lijn code.

Real-wereld probleem

Organisaties ontvangen vaak contracten, rapporten of archieven als gescannuleerde PDF’s. Handmatig kopiëren van tekst of zoeken binnen deze documenten is vervelend en foutloos, vertragen compliance, archive, en digitale transformatie projecten.

Overzicht oplossingen

Aspose.OCR voor .NET stelt u in staat om gescannuleerde PDF’s te verwerken - ze in tekst of zoektochtbare PDF’s om te zetten, waardoor informatie toegankelijk, indekseerbaar en klaar is voor digitale werkstromen.

Voorwaarden

Voordat u begint, zorg ervoor dat u:

  • Visual Studio 2019 of later
  • .NET 6.0 of hoger (of .Net Framework 4.6.2+)
  • Aspose.OCR voor .NET van NuGet
  • Basiskennis C#
PM> Install-Package Aspose.OCR

Stap voor stap implementatie

Stap 1: Installeren en configureren Aspose.OCR

Voeg het NuGet-pakket en verwijzing naar Aspose.OCR toe:

using Aspose.OCR;

Stap 2: Voeg uw gescannelde PDF-bestanden toe

Creëer een OcrInput-object voor PDF-input en voeg uw gescannuleerde pdf-bestanden toe.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Stap 3: Configureer de herkennen instellingen

Configureer taal en andere herkenningsinstellingen om aan uw documenten te passen.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Stap 4: Het proces van herkenning uitvoeren

Herken tekst uit uw gescande PDF’s:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Stap 5: Speel of exporteer geïdentificeerde tekst

Exporteer de geïdentificeerde tekst naar bestanden, of converteert de resultaten naar zoektochtbare PDF’s.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Stap 6: Toegevoegde foutbehandeling

Wrap herkenning in een try/catch blok voor robustheid.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Stap 7: Optimaliseren voor grote of meerdere PDF’s

  • Verwerking PDF’s pagina per pagina voor grote bestanden
  • Gebruik hoogwaardige scans voor beste resultaten
  • Batchproces in parallel voor grote collecties
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Stap 8: Voltooid werk voorbeeld

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Gebruik Cases en Applicaties

Digitale archief

Converteer hele bibliotheken van gescannelde documenten in zoekbare, indexbare bestanden voor naleving en kennisbeheer.

Legal en Contractmanagement

Extract contractvoorwaarden of voorwaarden uit PDF’s voor beoordeling, automatisering of digitale ondertekening.

Streamlined document zoeken

Snel volledige zoekopdracht in bestanden, kennisbanken of case-bestanden mogelijk maken.

Gemeenschappelijke uitdagingen en oplossingen

Challenge 1: Low-quality of Skewed scans

Oplossing: Gebruik voorverwerkingsfilters en hoogwaardige scans waar mogelijk.

Challenge 2: meertaal PDF’s

Oplossing: Set de taal in herkenningsinstellingen of processen met meerdere taalopties.

Challenge 3: zeer grote PDF-bestanden

Oplossing: Verwerking in pakketten of per pagina, en monitoring van het geheugengebruik.

Performance overwegingen

  • Gebruik optimale DPI (300+) voor gescande PDF’s
  • Batchproces voor beste doorbraak
  • Beschikken over OCR-objecten en dichtbestandhandels

Beste praktijken

  • Valideer OCR-uitgang vóór verdere automatisering
  • Organiseren en back-up originele PDF-bestanden
  • Gebruik de juiste SaveFormat voor uw werkstroom
  • Regelmatig update Aspose.OCR voor nieuwe PDF-functies

Geavanceerde scenario’s

Scenario 1: Alleen specifieke pagina’s uit een PDF extraheren

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenario 2: Exporteren naar meerdere formaten

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusie

Aspose.OCR voor .NET maakt het mogelijk om gescannuleerde PDF’s te converteren naar actieve tekst en zoekbare bestanden - het elimineren van handmatige invoer en het maken van informatie toegankelijk voor uw hele organisatie.

Voor meer details en voorbeelden, zie de Aspose.OCR voor .NET API Referentie .

 Nederlands