How to Extract Text from Scanned PDFs in .NET Using Aspose.OCR

How to Extract Text from Scanned PDFs in .NET Using Aspose.OCR

Scanned PDFs sind oft herausfordernd zu arbeiten, weil sie im Wesentlichen nur Bilder von Text sind. Die Umwandlung dieser Bilder in Suchbare, bearbeitbare Textdokumente öffnet eine Welt von Möglichkeiten für Dokumentverwaltung und Inhaltezugänglichkeit. Mit Aspose.OCR für .NET können Sie scanned PDFs in vollständig suchtbare Dokumente umwandeln und die ursprünglichen Bilder bewahren.

Warum OCR (Optical Character Recognition) für Scanned PDFs wichtig ist

  • Datenerhebung:- OCR ermöglicht es Ihnen, geschanztes Text in Maschinenlesbare Daten zu konvertieren, die geändert und indexiert werden können.

  • Suchfähigkeit:- Durch die Konvertierung skannter PDFs in Suchdokumente können Sie relevante Informationen schnell finden, ohne manuell durch Seiten zu suchen.

  • Verbesserung der Produktivität:- Sparen Sie Zeit, indem Sie die Konvertierung von scannen Dokumente in bearbeitbare Formate wie Word oder Excel automatisieren.

Voraussetzungen: Setting Up for Scanned PDF Text Extraction

Bevor Sie Text aus Ihren scannen PDFs extrahieren, stellen Sie sicher, dass die folgenden Schritte vollständig sind:

  • Installieren Sie Aspose.OCR für .NET:- Aspose.OCR** zu Ihrem Projekt mit NuGet hinzufügen: dotnet add package Aspose.OCR

  • Erlangen Sie eine messende Lizenz:- Set up your metered license to unlock all features of the Aspose.OCR library using SetMeteredKey().

  • Bearbeiten Sie Ihre Scanned PDFs:- Stellen Sie sicher, dass Ihre scannten PDFs von hoher Qualität sind. bessere Qualitätsergebnisse in genauerem OCR.

Schritt für Schritt Guide: Text aus Scanned PDFs zu extrahieren

Schritt 1: Die erforderliche Bibliothek installieren

Beginnen Sie mit der Installation Aspose.OCR für .NET in Ihr Projekt. Sie können dies direkt von NuGet tun.

dotnet add package Aspose.OCR

Schritt 2: Installieren Sie Ihre Lizenzschlüssel

Bevor Sie vorgehen, konfigurieren Sie Ihre Lizenz für Aspose.OCR, um alle Funktionen zu löschen.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Schritt 3: Laden Sie die Scanned PDF in das OCR Input Object

You’ll need to load the scanned PDF into the OcrInput object. Aspose.OCR supports scanning multiple pages of a PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Schritt 4: Verarbeiten des Scanned PDF mit dem OCR-Motor

Mit dem hochgeladenen PDF übertragen Sie es auf den Aspose OCR-Motor zur Erkennung.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Schritt 5: Entfernen Sie den anerkannten Text oder speichern Sie ihn

Sobald der OCR-Motor das PDF verarbeitet, können Sie entweder den anerkannten Text direkt ausführen oder ihn in eine Datei speichern.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Schritt 6: Test und Optimierung von OCR Ergebnissen

Nach der Extraktion des Textes testen Sie die Ausgabe für Genauigkeit.Wenn nötig, können Sie die OCR-Einstellungen tweak, um die Ergebnisse für verschiedene Dokumenterlegungen zu verbessern.

Gemeinsame Probleme und Fixes

1. Schlechte OCR-Genauigkeit

  • Lösung: Stellen Sie sicher, dass die gescannte PDF-Qualität hoch ist. Verwenden Sie High-Resolution-Scanners, um die Erkennungsgenauigkeit zu verbessern.

2. Ununterstützte Fonts

  • Lösung: Bereitstellung der richtigen Sprachinstellung in den OCR-Optionen, um die Erkenntnis für nicht-Latin Charaktere zu verbessern.

3. langsame Leistung

  • Lösung: Teilen Sie das PDF in kleinere Teile oder Seiten, um schneller zu verarbeiten, vor allem für große Dokumente.
 Deutsch