Cara Mengekstrak Teks dari PDF yang Dipindai di .NET Menggunakan Aspose.OCR
Scanned PDFs seringkali sulit untuk dikerjakan karena pada dasarnya hanya merupakan gambar teks. Mengonversi gambar-gambar ini menjadi dokumen teks yang dapat dicari dan diedit membuka dunia kemungkinan untuk manajemen dokumen dan aksesibilitas konten. Dengan Aspose.OCR untuk .NET, Anda dapat mengonversi PDF yang dipindai menjadi dokumen yang sepenuhnya dapat dicari sambil mempertahankan gambar aslinya.
Mengapa OCR (Optical Character Recognition) Penting untuk PDF yang Dipindai
- Ekstraksi Data:
- OCR memungkinkan Anda mengonversi teks yang dipindai menjadi data yang dapat dibaca mesin, yang dapat diedit dan diindeks.
- Dapat Dicari:
- Dengan mengonversi PDF yang dipindai menjadi dokumen yang dapat dicari, Anda dapat dengan cepat menemukan informasi relevan tanpa mencari secara manual melalui halaman.
- Peningkatan Produktivitas:
- Hemat waktu dengan mengotomatiskan konversi dokumen yang dipindai menjadi format yang dapat diedit seperti Word atau Excel.
Prasyarat: Menyiapkan Ekstraksi Teks dari PDF yang Dipindai
Sebelum Anda mulai mengekstrak teks dari PDF yang dipindai, pastikan langkah-langkah berikut telah selesai:
- Instal Aspose.OCR untuk .NET:
- Tambahkan Aspose.OCR ke proyek Anda menggunakan NuGet:
dotnet add package Aspose.OCR
- Tambahkan Aspose.OCR ke proyek Anda menggunakan NuGet:
- Dapatkan Lisensi Metered:
- Siapkan lisensi metered Anda untuk membuka semua fitur dari pustaka Aspose.OCR menggunakan
SetMeteredKey()
.
- Siapkan lisensi metered Anda untuk membuka semua fitur dari pustaka Aspose.OCR menggunakan
- Siapkan PDF yang Dipindai:
- Pastikan PDF yang dipindai memiliki kualitas tinggi. Kualitas yang lebih baik menghasilkan OCR yang lebih akurat.
Panduan Langkah-demi-Langkah: Mengekstrak Teks dari PDF yang Dipindai
Langkah 1: Instal Pustaka yang Diperlukan
Mulailah dengan menginstal Aspose.OCR untuk .NET ke dalam proyek Anda. Anda dapat melakukan ini langsung dari NuGet.
dotnet add package Aspose.OCR
Langkah 2: Siapkan Kunci Lisensi Anda
Sebelum melanjutkan, konfigurasikan lisensi Anda untuk Aspose.OCR untuk membuka semua fitur.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Lisensi dikonfigurasi dengan sukses.");
Langkah 3: Muat PDF yang Dipindai ke dalam Objek Input OCR
Anda perlu memuat PDF yang dipindai ke dalam objek OcrInput
. Aspose.OCR mendukung pemindaian beberapa halaman dari PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Proses 3 halaman pertama dari PDF
Console.WriteLine("PDF yang dipindai dimuat dengan sukses.");
Langkah 4: Proses PDF yang Dipindai Menggunakan Mesin OCR
Dengan PDF yang dimuat, serahkan ke mesin Aspose OCR untuk pengenalan.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Setel bahasa OCR (misalnya, Latin untuk bahasa Inggris)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Teks diekstraksi dari PDF.");
Langkah 5: Keluarkan Teks yang Dikenali atau Simpan
Setelah mesin OCR memproses PDF, Anda dapat mengeluarkan teks yang dikenali langsung atau menyimpannya ke dalam file.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Teks yang dikenali: {recognizedText}");
// Simpan hasil ke file teks
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Teks yang dikenali disimpan ke output.txt.");
Langkah 6: Uji dan Optimalkan Hasil OCR
Setelah mengekstrak teks, uji keluaran untuk akurasi. Jika perlu, Anda dapat menyesuaikan pengaturan OCR untuk meningkatkan hasil untuk tata letak dokumen yang berbeda.
Masalah Umum dan Solusinya
1. Akurasi OCR yang Buruk
- Solusi: Pastikan kualitas PDF yang dipindai tinggi. Gunakan pemindaian resolusi tinggi untuk meningkatkan akurasi pengenalan.
2. Font yang Tidak Didukung
- Solusi: Berikan pengaturan bahasa yang benar dalam opsi OCR untuk meningkatkan pengenalan untuk karakter non-Latin.
3. Kinerja Lambat
- Solusi: Pecah PDF menjadi bagian atau halaman yang lebih kecil untuk pemrosesan yang lebih cepat, terutama untuk dokumen besar.