Bagaimana untuk mengekstrak teks daripada PDF yang disemak dalam .NET menggunakan Aspose.OCR
PDF yang disemak seringkali mencabar untuk bekerja dengan kerana mereka pada dasarnya hanya imej teks.Mengubah gambar-gambar ini menjadi dokumen teks yang boleh dicari dan boleh diedit membuka dunia kemungkinan untuk pengurusan dokumen dan aksesibiliti kandungan.Dengan Aspose.OCR untuk .NET , anda boleh menukar pdf yang dipindai ke dalam dokumen yang sepenuhnya boleh dikesan sambil mengekalkan gambar asal.
Mengapa OCR (Optical Character Recognition) Penting untuk PDF yang Dipindai
Pengeluaran Data :- OCR membolehkan anda menukar teks yang disemak ke dalam data yang boleh dibaca oleh mesin, dan boleh diedit dan diindeks.
boleh dicari :- Dengan menukar PDF yang disemak ke dalam dokumen yang boleh dicari, anda boleh dengan cepat mencari maklumat yang relevan tanpa carian manual melalui halaman.
• Meningkatkan produktiviti *:- Menjimatkan masa dengan mengautomatikkan penukaran dokumen yang disemak ke dalam format yang boleh diedit seperti Word atau Excel.
Syarat-syarat: Menetapkan untuk Scanned PDF Text Extraction
Sebelum anda mula mengekstrak teks daripada PDF anda, pastikan langkah-langkah berikut selesai:
Memasang Aspose.OCR untuk .NET :- Tambah Aspose.OCR kepada projek anda menggunakan NuGet:
dotnet add package Aspose.OCR
** Dapatkan lesen yang diukur** :- Setkan lesen yang diukur anda untuk membuka semua ciri-ciri perpustakaan Aspose.OCR menggunakan
SetMeteredKey()
.Memperbaiki PDF anda yang disemak :- Pastikan PDF yang disemak anda berkualiti tinggi. hasil kualiti yang lebih baik dalam OCR yang paling tepat.
Langkah-langkah panduan: Mengekstrak teks daripada PDF yang disemak
Langkah 1: Menyediakan perpustakaan yang diperlukan
Mulakan dengan memasang Aspose.OCR untuk .NET dalam projek anda. anda boleh melakukannya secara langsung daripada NuGet.
dotnet add package Aspose.OCR
Langkah 2: Setkan kunci lesen anda
Sebelum melanjutkan, tetapkan lesen anda untuk Aspose.OCR untuk membuka semua ciri.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Langkah 3: Muat turun PDF yang disemak ke dalam objek input OCR
Anda akan perlu memuatkan PDF yang disemak ke dalam OcrInput
Object. Aspose.OCR menyokong pemindaian pelbagai halaman PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Langkah 4: Pemprosesan PDF yang disemak menggunakan enjin OCR
Dengan PDF yang dimuat naik, hantar ke enjin Aspose OCR untuk pengenalan.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Langkah 5: Keluarkan teks yang diiktiraf atau simpan
Sebaik sahaja enjin OCR memproses PDF, anda boleh mengeksport teks yang diiktiraf secara langsung atau menyimpannya ke dalam fail.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Langkah 6: Ujian dan Mengoptimumkan Hasil OCR
Selepas mengekstrak teks, ujian output untuk ketepatan.Jika perlu, anda boleh menggandakan tetapan OCR untuk meningkatkan hasil untuk tataletak dokumen yang berbeza.
Masalah dan penyelesaian umum
1. ketepatan OCR yang buruk
- ** Penyelesaian** : Pastikan kualiti PDF yang disemak adalah tinggi. gunakan pemindaian resolusi tinggi untuk meningkatkan ketepatan pengenalan.
2. font yang tidak disokong
- ** Penyelesaian** : Menyediakan tetapan bahasa yang betul dalam pilihan OCR untuk meningkatkan pengiktirafan bagi watak-watak bukan Latin.
3. prestasi perlahan
- ** Penyelesaian** : Memecahkan PDF ke dalam kepingan kecil atau halaman untuk pemprosesan yang lebih cepat, terutamanya untuk dokumen besar.