Cara Mengonversi PDF yang Dipindai menjadi Dokumen Teks yang Dapat Dicari di .NET
Scanned PDFs biasanya adalah file berbasis gambar yang tidak dapat diedit, yang membuatnya sulit untuk mengekstrak teks darinya. Namun, dengan Aspose.OCR untuk .NET, Anda dapat dengan cepat mengubah PDF yang dipindai ini menjadi dokumen teks yang dapat diedit dan dicari yang membuat pengambilan data dan manajemen dokumen menjadi jauh lebih mudah.
Mengapa Anda Harus Mengonversi PDF yang Dipindai ke Teks yang Dapat Dicari?
- Aksesibilitas yang Ditingkatkan:
- PDF yang dipindai dapat diubah menjadi teks yang dapat dicari dan diedit, memungkinkan akses yang lebih baik ke konten.
- Organisasi Data:
- Setelah dikonversi, teks dapat diorganisir, dimanipulasi, dan digunakan kembali dalam berbagai format seperti Word, Excel, atau teks biasa.
- Penyimpanan Konten:
- Aspose.OCR memastikan bahwa gambar dan tata letak asli dipertahankan saat teks diekstrak, memberikan Anda konten dan konteks.
Prasyarat: Bersiap untuk Konversi PDF yang Dipindai
Sebelum Anda memulai proses mengekstrak teks dari PDF yang dipindai, pastikan yang berikut:
- Instal Aspose.OCR untuk .NET:
- Instal pustaka yang diperlukan menggunakan NuGet dengan perintah:
dotnet add package Aspose.OCR
- Instal pustaka yang diperlukan menggunakan NuGet dengan perintah:
- Konfigurasi Lisensi:
- Dapatkan dan konfigurasikan lisensi terukur menggunakan metode
SetMeteredKey()
untuk membuka semua fitur.
- Dapatkan dan konfigurasikan lisensi terukur menggunakan metode
- Siapkan PDF yang Dipindai:
- Pastikan bahwa PDF yang dipindai Anda memiliki kualitas baik (300 DPI atau lebih) untuk hasil OCR terbaik.
Panduan Langkah demi Langkah untuk Mengonversi PDF yang Dipindai ke Teks
Langkah 1: Konfigurasi Lisensi Anda
Mulailah dengan mengonfigurasi lisensi Aspose.OCR Anda untuk memastikan akses penuh ke fitur.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Lisensi terukur berhasil dikonfigurasi.");
Langkah 2: Muat PDF yang Dipindai ke Objek Input OCR
Muat file PDF yang dipindai ke dalam mesin OCR untuk pengenalan teks.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Tentukan halaman yang akan diproses (3 halaman pertama)
Console.WriteLine("PDF yang dipindai berhasil dimuat.");
Langkah 3: Konfigurasi Mesin OCR untuk Pengenalan
Atur mesin OCR untuk mengoptimalkan ekstraksi teks dari PDF yang dipindai.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Tentukan bahasa OCR (gunakan Latin untuk bahasa Inggris)
Console.WriteLine("Pengaturan OCR dikonfigurasi.");
Langkah 4: Ekstrak dan Simpan Teks yang Dikenali
Proses PDF yang dipindai untuk mengekstrak teks dan mengeluarkannya ke file.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Ekstraksi teks berhasil.");
// Keluarkan teks yang dikenali ke file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Teks yang dikenali disimpan ke recognized_text.txt.");
Langkah 5: Uji Teks yang Dikenali
Setelah ekstraksi, verifikasi akurasi pengenalan teks dengan memeriksa file output atau menampilkannya di konsol.
Masalah Umum dan Solusinya
1. Akurasi OCR yang Buruk
- Solusi: Pastikan kualitas PDF yang dipindai tinggi (300 DPI atau lebih) untuk akurasi pengenalan yang lebih baik.
2. Pengenalan Bahasa yang Salah
- Solusi: Secara eksplisit tentukan pengaturan bahasa dalam RecognitionSettings untuk hasil yang lebih baik, terutama untuk karakter non-Latin.
3. Kinerja Lambat untuk File Besar
- Solusi: Proses PDF besar dalam potongan atau optimalkan penggunaan memori untuk mempercepat proses OCR.