Scanlanmış PDF'leri .NET'te Arama Yapılabilir Metin Belgelerine Nasıl Dönüştürülür
Bu görüntüleri arama yapabilen, düzenlenebilir metin belgelerine dönüştürmek, belge yönetimi ve içerik erişilebilirliği için bir dünya açıyor. Aspose.OCR ile .NET, kaydedilen PDF’leri tamamen arama yapabilen belgelere dönüştürebilirsiniz. orijinal görüntüleri korurken.
Neden Scanlanmış PDF’leri Arama Yapılabilir Metin Belgelerine Dönüştürürsünüz?
erişilebilirlik:- Tarama içeriği arama yapılabilir hale getirmek, belgeyi manuel olarak okuma olmadan bilgi bulmak kolay hale getirmek.
İçerik Değiştirme:- Yazıya dönüştürüldükten sonra, içerik düzenlenebilir, güncellenebilir veya başka biçimlerde yeniden kullanılabilir.
Verimlilik:- Scanlanmış PDF’lerin tamamen erişilebilir metin belgelerine dönüştürülmesi sürecini otomatikleştirerek zaman tasarrufu sağlar.
Ön koşullar: Scanned PDF Text Extraction için ayarlayın
Yazıyı taranan PDF’lerden çıkarmadan önce, her şeyin ayarlandığından emin olmak için aşağıdaki adımları izleyin:
NET için Aspose.OCR yükleme:- NuGet kullanarak projenize Aspose.OCR ekleyin:
dotnet add package Aspose.OCR
Lisansınızı alın:- Kullanarak ölçülen lisansı ayarlayın
SetMeteredKey()
Aspose.OCR’un tam işlevselliğini açmak için.Skanlı PDF’lerinizi hazırlayın:- Scanlanmış PDF’lerin daha iyi tanıma doğruluğu için kaliteli olduğundan emin olun.
Adım Adım Kılavuzu: Scanlanmış PDF’lerin Arama Yapılabilir Metine Dönüştürülmesi
Adım 1: Lisansınızı ayarlayın
Tüm özellikleri kilitlemek için Aspose.OCR lisansınızı ayarlayarak başlayın.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Adım 2: Scanlanmış PDF’yi OCR giriş nesnesine yükleyin
Sonra, OCR işlemi başlatmak için OcrInput nesnesine kaydedilen PDF’yi yükleyin.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Adım 3: Tanımlama için OCR motoru ayarlayın
OCR motoru ayarlayın ve dil ve doğruluk gibi herhangi bir tanıma ayarlarını ayarlayın.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Adım 4: Tanıdık metni çıkarın ve çıkarın
Şimdi, OCR motoru kullanarak taranan PDF’den metni çıkarın.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Adım 5: Arama PDF’yi test edin
Çekilen metnin bir PDF izleyicisi veya editöründe çıkışını test ederek arama ve düzenlenebilir olduğundan emin olun.
Toplam Sorunlar ve Çözümler
1. Düşük OCR doğruluğu
- Çözüm: Kayıtlı PDF’nin yüksek kaliteli (en az 300 DPI) olduğundan emin olun.
2. Desteklenmemiş Yazılar
- Çözüm: Özellikle Latince olmayan karakterler için doğru metin tanıma için OCR ayarlarında doğru dil ayarlanmasını sağlamak.
3. Büyük PDF’ler için yavaş performans
- Çözüm: Büyük PDF’ler için, hafıza kullanımını azaltmak ve süreci hızlandırmak için belgeyi daha küçük parçalar veya sayfalar halinde işleyin.