How to Convert Scanned PDFs into Searchable Text Documents in .NET

How to Convert Scanned PDFs into Searchable Text Documents in .NET

Scanned PDFs sind in der Regel nicht-editable, Bild-basierte Dateien, was es schwierig macht, Text von ihnen zu extrahieren. jedoch, mit Aspose.OCR für .NET, können Sie diese scanned PDFs schnell in bearbeitbare, suchtbare Textdokumente umwandeln, die Datenerfassung und Dokumentverwaltung viel einfacher machen.

Warum sollten Sie Scanned PDFs in Suchbare Text umwandeln?

  • Erweiterte Zugänglichkeit:- Scanned PDFs können in Text umgewandelt werden, der gesucht und bearbeitet werden kann, was eine bessere Zugänglichkeit für die Inhalte ermöglicht.

  • Die Datenorganisation:- Nach der Konvertierung kann der Text in verschiedenen Formaten wie Word, Excel oder Plain Text organisiert, manipuliert und wiederverwendet werden.

  • Inhalte aufbewahrt:- Aspose.OCR sorgt dafür, dass die ursprünglichen Bilder und Layout während des Textes erhalten werden, was Ihnen sowohl Inhalt als auch Kontext gibt.

Voraussetzungen: Bereiten Sie sich auf Scanned PDF Conversion vor

Bevor Sie den Prozess der Extraktion von Text aus scannen PDFs beginnen, stellen Sie sicher, dass:

  • Installieren Sie Aspose.OCR für .NET:- Installieren Sie die erforderliche Bibliothek mit NuGet mit der Kommande: dotnet add package Aspose.OCR

  • Lizenzkonfiguration:- Obtain and configure a metered license using the SetMeteredKey() method to unlock all features.

  • Bearbeiten Sie Ihre Scanned PDFs:- Stellen Sie sicher, dass Ihre scannten PDFs in guter Qualität (300 DPI oder höher) sind, um die besten OCR Ergebnisse zu erzielen.

Schritt für Schritt Guide zur Konvertierung von Scanned PDFs in Text

Schritt 1: Konfigurieren Sie Ihre Lizenz

Beginnen Sie mit der Konfiguration Ihrer Aspose.OCR-Lizenz, um den vollständigen Zugang zu den Funktionen zu gewährleisten.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Schritt 2: Laden Sie die Scanned PDF in das OCR Input Object

Laden Sie die geschkante PDF-Datei in den OCR-Motor für Texterkennung herunter.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Schritt 3: Konfigurieren Sie den OCR-Motor für die Anerkennung

Installieren Sie den OCR-Motor, um die Text-Extraktion aus dem scannen PDF zu optimieren.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Schritt 4: Entfernen und speichern Sie den anerkannten Text

Verarbeiten Sie das skannte PDF, um den Text zu extrahieren und es in eine Datei auszutauschen.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Schritt 5: Prüfen Sie den anerkannten Text

Nach der Extraktion überprüfen Sie die Genauigkeit der Texterkennung, indem Sie die Ausgangsdatei überprüfen oder sie auf der Konsole anzeigen.

Gemeinsame Probleme und Fixes

1. Schlechte OCR-Genauigkeit

  • Lösung: Stellen Sie sicher, dass die gescannte PDF-Qualität hoch ist (300 DPI oder mehr) für eine bessere Anerkennungsaufnahme.

2. Unregelmäßige Sprachenerkennung

  • Lösung: Angeben Sie ausdrücklich die Sprachinstellung in RecognitionSettings für bessere Ergebnisse, vor allem für Nicht-Latin-Charakter.

3. Slow Performance für große Dateien

  • Lösung: Verarbeiten Sie große PDFs in Teilen oder optimieren Sie die Speicherverwendung, um den OCR-Prozess zu beschleunigen.
 Deutsch