Jak wydobyć tekst z skanowanych plików PDF w .NET za pomocą Aspose.OCR

Jak wydobyć tekst z skanowanych plików PDF w .NET za pomocą Aspose.OCR

Skanowane pliki PDF są często trudne do pracy, ponieważ są one w zasadzie tylko obrazami tekstu. Konwertowanie tych obrazów do wyszukiwalnych, edytowalnych dokumentów tekstowych otwiera świat możliwości zarządzania dokumentami i dostępności treści. Aspose.OCR dla .NET, można konwertować skanowane pliki PDF do w pełni wyszukiwalnych dokumentów podczas zachowania oryginalnych obrazów.

Dlaczego OCR (Optical Character Recognition) ma znaczenie dla skanowanych plików PDF

  • Wykorzystanie danych:- OCR pozwala na przekształcenie skanowanego tekstu w czytelne dane maszynowe, które można edytować i indeksować.

  • możliwość wyszukiwania:- Konwertując skanowane pliki PDF w dokumenty do wyszukiwania, można szybko znaleźć odpowiednie informacje bez ręcznego wyszukiwania przez strony.

  • Wzmocniona wydajność:- Oszczędzaj czas, automatyzując konwersję skanowanych dokumentów w edytowalne formaty, takie jak Word lub Excel.

Wymagania: Ustawienia do skanowanej ekstrakcji tekstu PDF

Przed rozpoczęciem ekstrakcji tekstu z skanowanych plików PDF upewnij się, że następujące kroki są kompletne:

  • Instalacja Aspose.OCR dla .NET:- Dodaj Aspose.OCR do projektu za pomocą NuGet: dotnet add package Aspose.OCR

  • Zdobądź licencję mierzoną:- Ustaw licencję mierzoną, aby odblokować wszystkie funkcje biblioteki Aspose.OCR za pomocą SetMeteredKey().

  • Przygotuj skanowane pliki PDF:- Upewnij się, że skanowane pliki PDF są wysokiej jakości. lepsze wyniki jakości w dokładniejszym OCR.

Przewodnik krok po kroku: ekstrakcja tekstu z skanowanych plików PDF

Krok 1: Instalacja niezbędnej biblioteki

Zacznij od instalacji Aspose.OCR dla .NET w projekcie. można to zrobić bezpośrednio z NuGet.

dotnet add package Aspose.OCR

Krok 2: Ustaw klucze licencji

Przed rozpoczęciem postępowania ustaw swoją licencję na Aspose.OCR, aby odblokować wszystkie funkcje.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Krok 3: Pobierz skanowany PDF do obiektu wejściowego OCR

Będziesz musiał przesyłać skanowany PDF do OcrInput Obiekt. Aspose.OCR obsługuje skanowanie wielu stron pliku PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Krok 4: Przetwarzanie skanowanego pliku PDF za pomocą silnika OCR

Po załadowaniu pliku PDF przekaż go do silnika Aspose OCR do rozpoznawania.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Krok 5: Wprowadź rozpoznawany tekst lub przechowuj go

Gdy silnik OCR przetwarza plik PDF, można albo wydrukować rozpoznawany tekst bezpośrednio lub przechowywać go do pliku.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Krok 6: Testowanie i optymalizacja wyników OCR

Po wyciągnięciu tekstu, przetestować wyjście na dokładność.Jeśli to konieczne, można naciśnić ustawienia OCR, aby poprawić wyniki dla różnych układów dokumentów.

Wspólne problemy i korekty

Słaba precyzja OCR

  • Rozwiązanie: Upewnij się, że skanowana jakość PDF jest wysoka.Użyj skanów o wysokiej rozdzielczości, aby poprawić dokładność rozpoznawania.

2 Niepotrzebne fonty

  • Rozwiązanie: Zapewnij poprawne ustawienie języka w opcjach OCR, aby zwiększyć rozpoznawanie nie-latynskich znaków.

3 Powolna wydajność

  • Rozwiązanie: Rozdrobnij plik PDF na mniejsze fragmenty lub strony w celu szybszego przetwarzania, zwłaszcza w przypadku dużych dokumentów.
 Polski