Wie man Text aus Scanned PDFs mit Aspose.OCR extrahiert
Text aus skannierten oder bildbasierten PDF-Dateien zu extrahieren, die komplexe Workflows oder teure manuelle Arbeit erfordert. Mit Aspose.OCR Scanned PDF to Text for .NET können Sie diesen Prozess automatisieren, PDFs in suchtbare und bearbeitbare Text mit nur wenigen Zeilen von Code umwandeln.
Real-Weltproblem
Organisationen erhalten oft Verträge, Berichte oder Archiv wie scannen PDFs. manuell kopieren Text oder suchen innerhalb dieser Dokumente ist langweilig und fehlerfreundlich, verlangsamt die Einhaltung, Archivierung und digitale Transformation Projekte.
Überblick der Lösung
Aspose.OCR für .NET ermöglicht es Ihnen, skannte PDFs zu verarbeiten – sie in Text- oder Suchbar-PDFs umzuwandeln, Informationen zugänglich, indexbar und für digitale Workflows bereit zu machen.
Voraussetzung
Bevor Sie beginnen, stellen Sie sicher, dass Sie:
- Visual Studio 2019 oder später
- .NET 6.0 oder höher (oder .Net Framework 4.6.2+)
- Aspose.OCR für .NET von NuGet
- Grundkenntnisse C#
PM> Install-Package Aspose.OCR
Schritt für Schritt Implementierung
Schritt 1: Installieren und konfigurieren Aspose.OCR
Fügen Sie das NuGet-Paket und die Referenz Aspose.OCR hinzu:
using Aspose.OCR;
Schritt 2: Hinzufügen Ihrer Scanned PDF-Dateien
Erstellen Sie ein OcrInput-Objekt für PDF-Einträge und fügen Sie Ihre scannten PDF -Dateien hinzu.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Schritt 3: Konfigurieren der Anerkennung Einstellungen
Konfigurieren Sie Sprache und andere Anerkennungseinstellungen, um Ihre Dokumente zu entsprechen.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Schritt 4: Durchführen des Recognitionsprozesses
Erkennen Sie Text aus Ihren scannen PDFs:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Schritt 5: Speichern oder Exportieren anerkannter Text
Exportieren Sie den anerkannten Text in Dateien oder konvertieren die Ergebnisse in Suchbare PDFs.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Schritt 6: Fehlerbehandlung hinzufügen
Wrap Recognition in einem try/catch-Block für Robustheit.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Schritt 7: Optimierung für große oder mehrseiten PDFs
- Verarbeitung von PDFs Seite nach Seite für große Dateien
- Verwenden Sie qualitativ hochwertige Scannen für die besten Ergebnisse
- Batch-Prozess parallel für große Sammlungen
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Schritt 8: Vollständiges Arbeitsbeispiel
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Verwendung von Fällen und Anwendungen
Digitale Archivierung
Konvertieren Sie ganze Bibliotheken von scannen Dokumente in Suchbare, indexierbare Dateien für die Einhaltung und Wissensmanagement.
Rechts- und Vertragsmanagement
Entfernen Sie Vertragsklauseln oder Bedingungen aus PDFs zur Überprüfung, Automatisierung oder digitalen Unterzeichnung.
Streamlined Document Suche
Erlauben Sie eine schnelle Volltextsuche in Archiven, Wissensbanken oder Falldateien.
Gemeinsame Herausforderungen und Lösungen
Herausforderung 1: Niedrige Qualität oder geschwächte Scans
Lösung: Verwenden Sie vorverarbeitende Filter und qualitativ hochwertige Scannen, wo möglich.
Herausforderung 2: Mehrsprachige PDFs
Lösung: Setze die Sprache in Erkennungseinstellungen oder Prozesse mit mehreren Sprachoptionen.
Herausforderung 3: Sehr große PDF-Dateien
Lösung: Verarbeitung in Battchen oder per Seite und Überwachung der Speicherverwendung.
Performance Beachtung
- Optimale DPI (300+) für skannte PDFs verwenden
- Batch-Prozess für den besten Durchgang
- Bereitstellung von OCR-Objekten und geschlossenen Dateihandlungen
Beste Praktiken
- Validieren Sie OCR-Ausgang vor weiteren Automatisierung
- Organisieren und Backup Original PDF-Dateien
- Verwenden Sie den richtigen SaveFormat für Ihren Workflow
- Regelmäßig aktualisieren Sie Aspose.OCR für neue PDF-Funktionen
Fortgeschrittene Szenarien
Szenario 1: Nur spezifische Seiten aus einem PDF extrahieren
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Szenario 2: Export in mehrere Formate
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Schlussfolgerungen
Aspose.OCR für .NET ermöglicht es Ihnen, skannte PDFs in aktivierbare Text- und Suchdateien zu konvertieren – manuelle Einträge zu beseitigen und Informationen für Ihre gesamte Organisation zugänglich zu machen.
Für weitere Details und Beispiele, siehe die Aspose.OCR für .NET API Referenz .