Wie man Text aus gescannten PDFs in .NET mit Aspose.OCR extrahiert

Wie man Text aus gescannten PDFs in .NET mit Aspose.OCR extrahiert

Scanned PDFs sind oft schwierig zu bearbeiten, da sie im Wesentlichen nur Bilder von Text sind. Die Umwandlung dieser Bilder in durchsuchbare, bearbeitbare Textdokumente eröffnet eine Welt von Möglichkeiten für das Dokumentenmanagement und die Zugänglichkeit von Inhalten. Mit Aspose.OCR für .NET können Sie gescannte PDFs in vollständig durchsuchbare Dokumente umwandeln und dabei die Originalbilder beibehalten.

Warum OCR (Optische Zeichenerkennung) für gescannte PDFs wichtig ist

  1. Datenextraktion:
    • OCR ermöglicht es Ihnen, gescannten Text in maschinenlesbare Daten umzuwandeln, die bearbeitet und indiziert werden können.
  2. Durchsuchbarkeit:
    • Durch die Umwandlung gescannter PDFs in durchsuchbare Dokumente können Sie schnell relevante Informationen finden, ohne manuell durch Seiten suchen zu müssen.
  3. Produktivitätssteigerung:
    • Sparen Sie Zeit, indem Sie die Umwandlung gescannter Dokumente in bearbeitbare Formate wie Word oder Excel automatisieren.

Voraussetzungen: Vorbereitung zur Textextraktion aus gescannten PDFs

Bevor Sie mit der Textextraktion aus Ihren gescannten PDFs beginnen, stellen Sie sicher, dass die folgenden Schritte abgeschlossen sind:

  1. Installieren Sie Aspose.OCR für .NET:
    • Fügen Sie Aspose.OCR zu Ihrem Projekt über NuGet hinzu:
      dotnet add package Aspose.OCR
  2. Erhalten Sie eine gemessene Lizenz:
    • Richten Sie Ihre gemessene Lizenz ein, um alle Funktionen der Aspose.OCR-Bibliothek mit SetMeteredKey() freizuschalten.
  3. Bereiten Sie Ihre gescannten PDFs vor:
    • Stellen Sie sicher, dass Ihre gescannten PDFs von hoher Qualität sind. Bessere Qualität führt zu genaueren OCR-Ergebnissen.

Schritt-für-Schritt-Anleitung: Textextraktion aus gescannten PDFs

Schritt 1: Installieren Sie die erforderliche Bibliothek

Beginnen Sie mit der Installation von Aspose.OCR für .NET in Ihr Projekt. Sie können dies direkt über NuGet tun.

dotnet add package Aspose.OCR

Schritt 2: Richten Sie Ihre Lizenzschlüssel ein

Bevor Sie fortfahren, konfigurieren Sie Ihre Lizenz für Aspose.OCR, um alle Funktionen freizuschalten.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Lizenz erfolgreich konfiguriert.");

Schritt 3: Laden Sie das gescannte PDF in das OCR-Eingabeobjekt

Sie müssen das gescannte PDF in das OcrInput-Objekt laden. Aspose.OCR unterstützt das Scannen mehrerer Seiten eines PDFs.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Verarbeiten der ersten 3 Seiten des PDFs
Console.WriteLine("Gescannte PDF erfolgreich geladen.");

Schritt 4: Verarbeiten Sie das gescannte PDF mit der OCR-Engine

Nachdem das PDF geladen ist, übergeben Sie es der Aspose OCR-Engine zur Erkennung.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // OCR-Sprache festlegen (z.B. Latein für Englisch)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text aus PDF extrahiert.");

Schritt 5: Geben Sie den erkannten Text aus oder speichern Sie ihn

Sobald die OCR-Engine das PDF verarbeitet hat, können Sie den erkannten Text entweder direkt ausgeben oder in einer Datei speichern.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Erkannter Text: {recognizedText}");

// Speichern Sie das Ergebnis in einer Textdatei
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Erkannter Text in output.txt gespeichert.");

Schritt 6: Testen und Optimieren der OCR-Ergebnisse

Nach der Textextraktion testen Sie die Ausgabe auf Genauigkeit. Wenn nötig, können Sie die OCR-Einstellungen anpassen, um die Ergebnisse für unterschiedliche Dokumentenlayouts zu verbessern.


Häufige Probleme und Lösungen

1. Schlechte OCR-Genauigkeit

  • Lösung: Stellen Sie sicher, dass die Qualität des gescannten PDFs hoch ist. Verwenden Sie hochauflösende Scans, um die Erkennungsgenauigkeit zu verbessern.

2. Nicht unterstützte Schriftarten

  • Lösung: Geben Sie die richtige Spracheinstellung in den OCR-Optionen an, um die Erkennung für nicht-lateinische Zeichen zu verbessern.

3. Langsame Leistung

  • Lösung: Teilen Sie das PDF in kleinere Teile oder Seiten auf, um die Verarbeitung zu beschleunigen, insbesondere bei großen Dokumenten.
 Deutsch