Aspose.OCR'yi kullanarak .NET'te taranan PDF'lerden metin nasıl çıkarılır
Bu görüntüleri arama yapabilen, düzenlenebilir metin belgelerine dönüştürmek, belge yönetimi ve içerik erişilebilirliği için bir dünya açıyor. Aspose.OCR ile .NET, kaydedilen PDF’leri tamamen arama yapabilen belgelere dönüştürebilirsiniz. orijinal görüntüleri korurken.
Neden OCR (Optical Character Recognition) Scanned PDF için Önemli
Bilgi Ekstraksiyonu:- OCR, taranan metni makine okunabilir verilere dönüştürmenizi sağlar, bu da düzenlenebilir ve indekslenebilir.
Arama Yöntemleri:- Tarayıcı PDF’leri arama yapabilen belgelere dönüştürerek, sayfaları manuel olarak arama yapmadan ilgili bilgileri hızlı bir şekilde bulabilirsiniz.
Gelişmiş üretkenlik:- Tarayıcı belgelerin Word veya Excel gibi düzenlenebilir biçimlere dönüştürülmesini otomatikleştirerek zaman tasarrufu sağlar.
Ön koşullar: Scanned PDF Text Extraction için ayarlayın
Scanlanmış PDF’lerinizden metin çıkarmaya başlamadan önce, aşağıdaki adımların tamamlandığından emin olun:
NET için Aspose.OCR yükleme:- NuGet kullanarak projenize Aspose.OCR ekleyin:
dotnet add package Aspose.OCR
Bir ölçülen lisans alın:- Aspose.OCR kütüphanesinin tüm özelliklerini açmak için ölçülen lisansınızı ayarlayın
SetMeteredKey()
.Skanlı PDF’lerinizi hazırlayın:- Skanlanmış PDF’lerin yüksek kalitede olduğundan emin olun. daha doğru OCR’de daha kaliteli sonuçlar.
Adım Adım Kılavuzu: Scanlanmış PDF’lerden metin çıkarma
Adım 1: İhtiyacınız olan kütüphaneyi kurun
Projenize Aspose.OCR for .NET yerleştirerek başlayın. bunu doğrudan NuGet’ten yapabilirsiniz.
dotnet add package Aspose.OCR
Adım 2: Lisans anahtarlarınızı ayarlayın
Başlamadan önce, tüm özellikleri kilitlemek için Aspose.OCR lisansınızı ayarlayın.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Adım 3: Scanlanmış PDF’yi OCR giriş nesnesine yükleyin
Scanlanmış PDF’yi yüklemeniz gerekecek. OcrInput
Object. Aspose.OCR bir PDF’nin çok sayfalık taramasını destekler.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Adım 4: Scanlanmış PDF’yi OCR motoru kullanarak işleme
PDF yüklendiğinde, tanıma için Aspose OCR motoruna aktarın.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Adım 5: Tanıdık metni çıkartın veya kaydedin
OCR motoru PDF’yi işlediğinde, doğrudan tanınan metni çıkaracak ya da bir dosyaya kaydedebilirsiniz.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Adım 6: OCR sonuçlarını test etmek ve optimize etmek
Metin çıkarıldıktan sonra, çıkışın doğruluğunu test edin. gerekirse, farklı belge düzenleri için sonuçları iyileştirmek için OCR ayarlarını tıraş edebilirsiniz.
Toplam Sorunlar ve Çözümler
1. Kötü OCR doğruluğu
- Çözüm: Tarama PDF kalitesinin yüksek olduğundan emin olun. yüksek çözünürlüklü taramaları kullanarak tanıma doğruluğunu arttırın.
2. Desteklenmemiş Yazılar
- Çözüm: OCR seçeneklerinde doğru dil ayarlarını sağlamak, Latince olmayan karakterlerin tanınmasını arttırmak için.
3. Yavaş performans
- Çözüm: PDF’yi daha hızlı işleme, özellikle de büyük belgeler için daha küçük parçalara veya sayfalara bölün.