Hoe tekst uit gescande PDF's te extraheren met Aspose.OCR
Het extraheren van tekst uit gescannen of afbeeldingsgebaseerde PDF-bestanden die worden gebruikt om complexe werkstromen of dure handwerk te vereisen. met Aspose.OCR Scanned PDF naar Text voor .NET, kunt u dit proces automatiseren, PDF’s converteren naar zoekbare en bewerkt tekst met slechts een paar lijn code.
Real-wereld probleem
Organisaties ontvangen vaak contracten, rapporten of archieven als gescannuleerde PDF’s. Handmatig kopiëren van tekst of zoeken binnen deze documenten is vervelend en foutloos, vertragen compliance, archive, en digitale transformatie projecten.
Overzicht oplossingen
Aspose.OCR voor .NET stelt u in staat om gescannuleerde PDF’s te verwerken - ze in tekst of zoektochtbare PDF’s om te zetten, waardoor informatie toegankelijk, indekseerbaar en klaar is voor digitale werkstromen.
Voorwaarden
Voordat u begint, zorg ervoor dat u:
- Visual Studio 2019 of later
- .NET 6.0 of hoger (of .Net Framework 4.6.2+)
- Aspose.OCR voor .NET van NuGet
- Basiskennis C#
PM> Install-Package Aspose.OCR
Stap voor stap implementatie
Stap 1: Installeren en configureren Aspose.OCR
Voeg het NuGet-pakket en verwijzing naar Aspose.OCR toe:
using Aspose.OCR;
Stap 2: Voeg uw gescannelde PDF-bestanden toe
Creëer een OcrInput-object voor PDF-input en voeg uw gescannuleerde pdf-bestanden toe.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Stap 3: Configureer de herkennen instellingen
Configureer taal en andere herkenningsinstellingen om aan uw documenten te passen.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Stap 4: Het proces van herkenning uitvoeren
Herken tekst uit uw gescande PDF’s:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Stap 5: Speel of exporteer geïdentificeerde tekst
Exporteer de geïdentificeerde tekst naar bestanden, of converteert de resultaten naar zoektochtbare PDF’s.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Stap 6: Toegevoegde foutbehandeling
Wrap herkenning in een try/catch blok voor robustheid.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Stap 7: Optimaliseren voor grote of meerdere PDF’s
- Verwerking PDF’s pagina per pagina voor grote bestanden
- Gebruik hoogwaardige scans voor beste resultaten
- Batchproces in parallel voor grote collecties
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Stap 8: Voltooid werk voorbeeld
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Gebruik Cases en Applicaties
Digitale archief
Converteer hele bibliotheken van gescannelde documenten in zoekbare, indexbare bestanden voor naleving en kennisbeheer.
Legal en Contractmanagement
Extract contractvoorwaarden of voorwaarden uit PDF’s voor beoordeling, automatisering of digitale ondertekening.
Streamlined document zoeken
Snel volledige zoekopdracht in bestanden, kennisbanken of case-bestanden mogelijk maken.
Gemeenschappelijke uitdagingen en oplossingen
Challenge 1: Low-quality of Skewed scans
Oplossing: Gebruik voorverwerkingsfilters en hoogwaardige scans waar mogelijk.
Challenge 2: meertaal PDF’s
Oplossing: Set de taal in herkenningsinstellingen of processen met meerdere taalopties.
Challenge 3: zeer grote PDF-bestanden
Oplossing: Verwerking in pakketten of per pagina, en monitoring van het geheugengebruik.
Performance overwegingen
- Gebruik optimale DPI (300+) voor gescande PDF’s
- Batchproces voor beste doorbraak
- Beschikken over OCR-objecten en dichtbestandhandels
Beste praktijken
- Valideer OCR-uitgang vóór verdere automatisering
- Organiseren en back-up originele PDF-bestanden
- Gebruik de juiste SaveFormat voor uw werkstroom
- Regelmatig update Aspose.OCR voor nieuwe PDF-functies
Geavanceerde scenario’s
Scenario 1: Alleen specifieke pagina’s uit een PDF extraheren
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scenario 2: Exporteren naar meerdere formaten
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Conclusie
Aspose.OCR voor .NET maakt het mogelijk om gescannuleerde PDF’s te converteren naar actieve tekst en zoekbare bestanden - het elimineren van handmatige invoer en het maken van informatie toegankelijk voor uw hele organisatie.
Voor meer details en voorbeelden, zie de Aspose.OCR voor .NET API Referentie .