Jak wydobyć tekst z skanowanych plików PDF w .NET za pomocą Aspose.OCR
Skanowane pliki PDF są często trudne do pracy, ponieważ są one w zasadzie tylko obrazami tekstu. Konwertowanie tych obrazów do wyszukiwalnych, edytowalnych dokumentów tekstowych otwiera świat możliwości zarządzania dokumentami i dostępności treści. Aspose.OCR dla .NET, można konwertować skanowane pliki PDF do w pełni wyszukiwalnych dokumentów podczas zachowania oryginalnych obrazów.
Dlaczego OCR (Optical Character Recognition) ma znaczenie dla skanowanych plików PDF
Wykorzystanie danych:- OCR pozwala na przekształcenie skanowanego tekstu w czytelne dane maszynowe, które można edytować i indeksować.
możliwość wyszukiwania:- Konwertując skanowane pliki PDF w dokumenty do wyszukiwania, można szybko znaleźć odpowiednie informacje bez ręcznego wyszukiwania przez strony.
Wzmocniona wydajność:- Oszczędzaj czas, automatyzując konwersję skanowanych dokumentów w edytowalne formaty, takie jak Word lub Excel.
Wymagania: Ustawienia do skanowanej ekstrakcji tekstu PDF
Przed rozpoczęciem ekstrakcji tekstu z skanowanych plików PDF upewnij się, że następujące kroki są kompletne:
Instalacja Aspose.OCR dla .NET:- Dodaj Aspose.OCR do projektu za pomocą NuGet:
dotnet add package Aspose.OCR
Zdobądź licencję mierzoną:- Ustaw licencję mierzoną, aby odblokować wszystkie funkcje biblioteki Aspose.OCR za pomocą
SetMeteredKey()
.Przygotuj skanowane pliki PDF:- Upewnij się, że skanowane pliki PDF są wysokiej jakości. lepsze wyniki jakości w dokładniejszym OCR.
Przewodnik krok po kroku: ekstrakcja tekstu z skanowanych plików PDF
Krok 1: Instalacja niezbędnej biblioteki
Zacznij od instalacji Aspose.OCR dla .NET w projekcie. można to zrobić bezpośrednio z NuGet.
dotnet add package Aspose.OCR
Krok 2: Ustaw klucze licencji
Przed rozpoczęciem postępowania ustaw swoją licencję na Aspose.OCR, aby odblokować wszystkie funkcje.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Krok 3: Pobierz skanowany PDF do obiektu wejściowego OCR
Będziesz musiał przesyłać skanowany PDF do OcrInput
Obiekt. Aspose.OCR obsługuje skanowanie wielu stron pliku PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Krok 4: Przetwarzanie skanowanego pliku PDF za pomocą silnika OCR
Po załadowaniu pliku PDF przekaż go do silnika Aspose OCR do rozpoznawania.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Krok 5: Wprowadź rozpoznawany tekst lub przechowuj go
Gdy silnik OCR przetwarza plik PDF, można albo wydrukować rozpoznawany tekst bezpośrednio lub przechowywać go do pliku.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Krok 6: Testowanie i optymalizacja wyników OCR
Po wyciągnięciu tekstu, przetestować wyjście na dokładność.Jeśli to konieczne, można naciśnić ustawienia OCR, aby poprawić wyniki dla różnych układów dokumentów.
Wspólne problemy i korekty
Słaba precyzja OCR
- Rozwiązanie: Upewnij się, że skanowana jakość PDF jest wysoka.Użyj skanów o wysokiej rozdzielczości, aby poprawić dokładność rozpoznawania.
2 Niepotrzebne fonty
- Rozwiązanie: Zapewnij poprawne ustawienie języka w opcjach OCR, aby zwiększyć rozpoznawanie nie-latynskich znaków.
3 Powolna wydajność
- Rozwiązanie: Rozdrobnij plik PDF na mniejsze fragmenty lub strony w celu szybszego przetwarzania, zwłaszcza w przypadku dużych dokumentów.