Cara Mengonversi PDF yang Dipindai Menjadi Dokumen Teks yang Dapat Dicari di .NET
Scanned PDFs seringkali sulit untuk dikerjakan karena pada dasarnya hanya berupa gambar teks. Mengonversi gambar-gambar ini menjadi dokumen teks yang dapat dicari dan diedit membuka dunia kemungkinan untuk manajemen dokumen dan aksesibilitas konten. Dengan Aspose.OCR untuk .NET, Anda dapat mengonversi PDF yang dipindai menjadi dokumen yang sepenuhnya dapat dicari sambil mempertahankan gambar aslinya.
Mengapa Mengonversi PDF yang Dipindai menjadi Dokumen Teks yang Dapat Dicari?
- Aksesibilitas:
- Membuat konten yang dipindai dapat dicari, sehingga memudahkan untuk menemukan informasi tanpa harus membaca dokumen secara manual.
- Pengeditan Konten:
- Setelah dikonversi menjadi teks, konten dapat diedit, diperbarui, atau digunakan kembali dalam format lain.
- Efisiensi:
- Menghemat waktu dengan mengotomatiskan proses mengonversi PDF yang dipindai menjadi dokumen teks yang sepenuhnya dapat diakses.
Prasyarat: Menyiapkan Ekstraksi Teks dari PDF yang Dipindai
Sebelum mengekstrak teks dari PDF yang dipindai, ikuti langkah-langkah ini untuk memastikan semuanya sudah disiapkan:
- Instal Aspose.OCR untuk .NET:
- Tambahkan Aspose.OCR ke proyek Anda menggunakan NuGet:
dotnet add package Aspose.OCR
- Tambahkan Aspose.OCR ke proyek Anda menggunakan NuGet:
- Dapatkan Lisensi Anda:
- Siapkan lisensi meteran Anda menggunakan
SetMeteredKey()
untuk membuka kunci semua fungsi dari Aspose.OCR.
- Siapkan lisensi meteran Anda menggunakan
- Siapkan PDF yang Dipindai:
- Pastikan bahwa PDF yang dipindai memiliki kualitas baik untuk akurasi pengenalan yang lebih baik.
Panduan Langkah-demi-Langkah: Mengonversi PDF yang Dipindai ke Teks yang Dapat Dicari
Langkah 1: Siapkan Lisensi Anda
Mulailah dengan mengonfigurasi lisensi Aspose.OCR Anda untuk membuka semua fitur.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Lisensi berhasil dikonfigurasi.");
Langkah 2: Muat PDF yang Dipindai ke dalam Objek Input OCR
Selanjutnya, muat PDF yang dipindai ke dalam objek OcrInput untuk memulai proses OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Proses 3 halaman pertama
Console.WriteLine("PDF yang dipindai berhasil dimuat.");
Langkah 3: Konfigurasikan Mesin OCR untuk Pengenalan
Siapkan mesin OCR dan konfigurasikan pengaturan pengenalan, seperti bahasa dan akurasi.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Atur bahasa OCR
Console.WriteLine("Mesin OCR berhasil dikonfigurasi.");
Langkah 4: Ekstrak dan Keluarkan Teks yang Dikenali
Sekarang, ekstrak teks dari PDF yang dipindai menggunakan mesin OCR.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Teks berhasil diekstrak dari PDF yang dipindai.");
// Keluarkan teks yang dikenali
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Simpan hasil ke file teks
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Teks disimpan ke recognized_text.txt.");
Langkah 5: Uji PDF yang Dapat Dicari
Pastikan bahwa teks yang diekstrak dapat dicari dan diedit dengan menguji keluaran di penampil atau editor PDF.
Masalah Umum dan Solusinya
1. Akurasi OCR Rendah
- Solusi: Pastikan bahwa PDF yang dipindai memiliki kualitas tinggi (setidaknya 300 DPI) untuk meningkatkan hasil pengenalan.
2. Font yang Tidak Didukung
- Solusi: Pastikan bahasa yang benar diatur dalam pengaturan OCR untuk pengenalan teks yang akurat, terutama untuk karakter non-Latin.
3. Kinerja Lambat untuk PDF Besar
- Solusi: Untuk PDF besar, proses dokumen dalam potongan atau halaman yang lebih kecil untuk mengurangi penggunaan memori dan mempercepat proses.