Jak wydobyć tekst z skanowanych plików PDF za pomocą Aspose.OCR

Ekstrakcja tekstu z skanowanego lub opartego na obrazie PDF pliki używane do wymagania złożonych przepływów pracy lub drogie prace ręczne. z Aspose.OCR Scanned PDF do tekstu dla .NET, można zautomatyzować ten proces, przekształcając PDF w wyszukiwany i edytowalny tekst z zaledwie kilka linii kodu.

Problem świata rzeczywistego

Organizacje często otrzymują umowy, sprawozdania lub archiwum jako skanowane pliki PDF. Ręczne kopiowanie tekstu lub wyszukiwanie wewnątrz tych dokumentów jest nudne i błędne, spowalniając zgodność, archivowanie i projekty transformacji cyfrowej.

Przegląd rozwiązania

Aspose.OCR dla .NET pozwala na przetwarzanie skanowanych plików PDF – przekształcając je w tekstowe lub wyszukiwalne pliki PDF, dzięki czemu informacje są dostępne, indeksowalne i gotowe do cyfrowych przepływów pracy.

Warunki

Zanim zaczniesz, upewnij się, że masz:

Visual Studio 2019 lub później
.NET 6.0 lub nowszy (lub .NET Framework 4.6.2+)
Aspose.OCR dla .NET od NuGet
Znajomość C

PM> Install-Package Aspose.OCR

Wdrażanie krok po kroku

Krok 1: Instalacja i konfiguracja Aspose.OCR

Dodaj pakiet NuGet i referencję Aspose.OCR:

using Aspose.OCR;

Krok 2: Dodaj skanowane pliki PDF

Stwórz obiekt OcrInput dla wpisów PDF i dodaj skanowane pliki PDF.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Krok 3: Konfiguruj ustawienia rozpoznawania

Konfiguruj język i inne ustawienia rozpoznawania, aby pasowały do Twoich dokumentów.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Krok 4: Przeprowadź proces rozpoznawania

Rozpoznaj tekst z skanowanych plików PDF:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Krok 5: Zapisz lub wyeksportować uznany tekst

Eksportować uznany tekst do plików lub konwertować wyniki do wyszukiwanych pliku PDF.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Krok 6: Dodaj rozwiązywanie błędów

Włóż rozpoznawanie w bloku try/catch dla wytrzymałości.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Krok 7: Optymalizacja dla dużych lub wielokątnych plików PDF

Przetwarzanie plików PDF na stronę dla dużych pliki
Wykorzystaj skanowanie wysokiej jakości w celu uzyskania najlepszych wyników
Proces batch w równoległym zakresie dla dużych kolekcji

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Krok 8: Pełny przykład pracy

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Korzystanie z przypadków i aplikacji

Archiwum cyfrowe

Konwertuj całe biblioteki skanowanych dokumentów w wyszukiwalne, indeksowalne pliki dla zgodności i zarządzania wiedzą.

Zarządzanie prawne i umowne

Wyciągnij klauzule lub warunki umowy z plików PDF do przeglądu, automatyzacji lub podpisania cyfrowego.

Streamline wyszukiwanie dokumentów

Umożliwia szybkie wyszukiwanie pełnego tekstu w archiwach, bazach wiedzy lub plikach przypadków.

Wspólne wyzwania i rozwiązania

Wyzwanie 1: Niska jakość lub skanowanie

Rozwiązanie: W miarę możliwości użyj wstępnie przetwarzanych filtrów i skanowania wysokiej jakości.

Wyzwanie 2: Wielojęzyczne pliki PDF

Rozwiązanie: Ustaw język w ustawieniach rozpoznawania lub procesie z wieloma opcjami językami.

Wyzwanie 3: Bardzo duże pliki PDF

Rozwiązanie: Proces w zestawach lub na stronie, a także monitorowanie wykorzystania pamięci.

uwzględnienie wydajności

Użyj optymalnego DPI (300+) dla skanowanych plików PDF
Proces batchowy dla najlepszego przepływu
Dostarczanie obiektów OCR i zamkniętych plików

Najlepsze praktyki

Potwierdzenie wyjścia OCR przed dalszym automatyzacją
Zorganizuj i kopiować oryginalne pliki PDF
Korzystaj z prawidłowego SaveFormat dla twojego przepływu pracy
Regularne aktualizacje Aspose.OCR dla nowych funkcji PDF

Zaawansowane scenariusze

Scenariusz 1: Wyciągnij tylko konkretne strony z pliku PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenariusz 2: Eksportowanie do wielu formatów

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

konkluzja

Aspose.OCR dla .NET pozwala na przekształcenie skanowanych plików PDF w aktywacyjne pliki tekstowe i wyszukiwalne – usuwając wpisy ręczne i sprawiając, że informacje są dostępne dla całej organizacji.

Aby uzyskać więcej szczegółów i przykładów, zobacz Aspose.OCR dla .NET API Referencje .