Jak wydobyć tekst z skanowanych plików PDF za pomocą Aspose.OCR
Ekstrakcja tekstu z skanowanych lub obrazowych plików PDF używanych do wymagania złożonych przepływów roboczych lub kosztownej pracy ręcznej. z Aspose.OCR Scanned PDF do tekstu dla .NET, można zautomatyzować ten proces, konwertując pliki PDF na wyszukiwane i edytowane tekst z zaledwie kilka linii kodu.
Problem świata rzeczywistego
Organizacje często otrzymują umowy, sprawozdania lub archiwum jako skanowane pliki PDF. Ręczne kopiowanie tekstu lub wyszukiwanie wewnątrz tych dokumentów jest nudne i błędne, spowalniając zgodność, archivowanie i projekty transformacji cyfrowej.
Przegląd rozwiązania
Aspose.OCR dla .NET pozwala na przetwarzanie skanowanych plików PDF – przekształcając je w tekstowe lub wyszukiwalne pliki PDF, dzięki czemu informacje są dostępne, indeksowalne i gotowe do cyfrowych przepływów pracy.
Warunki
Zanim zaczniesz, upewnij się, że masz:
- Visual Studio 2019 lub później
- .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
- Aspose.OCR dla .NET od NuGet
- Znajomość C#
PM> Install-Package Aspose.OCR
Wdrażanie krok po kroku
Krok 1: Instalacja i konfiguracja Aspose.OCR
Dodaj pakiet NuGet i referencję Aspose.OCR:
using Aspose.OCR;
Krok 2: Dodaj skanowane pliki PDF
Stwórz obiekt OcrInput dla wpisów PDF i dodaj skanowane pliki PDF.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Krok 3: Konfiguruj ustawienia rozpoznawania
Konfiguruj język i inne ustawienia rozpoznawania, aby pasowały do Twoich dokumentów.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Krok 4: Przeprowadź proces rozpoznawania
Rozpoznaj tekst z skanowanych plików PDF:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Krok 5: Zapisz lub wyeksportować uznany tekst
Eksportować uznany tekst do plików lub konwertować wyniki do wyszukiwanych pliku PDF.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Krok 6: Dodaj rozwiązywanie błędów
Włóż rozpoznawanie w bloku try/catch dla wytrzymałości.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Krok 7: Optymalizacja dla dużych lub wielokątnych plików PDF
- Przetwarzanie plików PDF na stronę dla dużych pliki
- Wykorzystaj skanowanie wysokiej jakości w celu uzyskania najlepszych wyników
- Proces batch w równoległym zakresie dla dużych kolekcji
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Krok 8: Pełny przykład pracy
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Korzystanie z przypadków i aplikacji
Archiwum cyfrowe
Konwertuj całe biblioteki skanowanych dokumentów w wyszukiwalne, indeksowalne pliki dla zgodności i zarządzania wiedzą.
Zarządzanie prawne i umowne
Wyciągnij klauzule lub warunki umowy z plików PDF do przeglądu, automatyzacji lub podpisania cyfrowego.
Streamline wyszukiwanie dokumentów
Umożliwia szybkie wyszukiwanie pełnego tekstu w archiwach, bazach wiedzy lub plikach przypadków.
Wspólne wyzwania i rozwiązania
Wyzwanie 1: Niska jakość lub skanowanie
Rozwiązanie: W miarę możliwości użyj wstępnie przetwarzanych filtrów i skanowania wysokiej jakości.
Wyzwanie 2: Wielojęzyczne pliki PDF
Rozwiązanie: Ustaw język w ustawieniach rozpoznawania lub procesie z wieloma opcjami językami.
Wyzwanie 3: Bardzo duże pliki PDF
**Rozwiązanie: ** Proces w zestawach lub na stronie, a także monitorowanie wykorzystania pamięci.
uwzględnienie wydajności
- Użyj optymalnego DPI (300+) dla skanowanych plików PDF
- Proces batchowy dla najlepszego przepływu
- Dostarczanie obiektów OCR i zamkniętych plików
Najlepsze praktyki
- Potwierdzenie wyjścia OCR przed dalszym automatyzacją
- Zorganizuj i kopiować oryginalne pliki PDF
- Korzystaj z prawidłowego SaveFormat dla twojego przepływu pracy
- Regularne aktualizacje Aspose.OCR dla nowych funkcji PDF
Zaawansowane scenariusze
Scenariusz 1: Wyciągnij tylko konkretne strony z pliku PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scenariusz 2: Eksportowanie do wielu formatów
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
konkluzja
Aspose.OCR dla .NET pozwala na przekształcenie skanowanych plików PDF w aktywacyjne pliki tekstowe i wyszukiwalne – usuwając wpisy ręczne i sprawiając, że informacje są dostępne dla całej organizacji.
Aby uzyskać więcej szczegółów i przykładów, zobacz Aspose.OCR dla .NET API Referencje .