Bagaimana untuk menukar PDF yang disemak ke dokumen teks yang boleh dicari dalam .NET
PDF yang disemak seringkali mencabar untuk bekerja dengan kerana mereka pada dasarnya hanya imej teks.Mengubah gambar-gambar ini menjadi dokumen teks yang boleh dicari dan boleh diedit membuka dunia kemungkinan untuk pengurusan dokumen dan aksesibiliti kandungan.Dengan Aspose.OCR untuk .NET , anda boleh menukar pdf yang dipindai ke dalam dokumen yang sepenuhnya boleh dikesan sambil mengekalkan gambar asal.
Mengapa mengubah PDF yang disemak menjadi dokumen teks yang boleh dicari?
• Aksesibiliti * :- Membuat kandungan yang disemak boleh dicari, menjadikannya mudah untuk mencari maklumat tanpa membaca secara manual melalui dokumen.
Pengenalan kepada kandungan :- Sebaik sahaja ditukar kepada teks, kandungan boleh diedit, dikemas kini, atau digunakan semula dalam format lain.
*Keselamatan dan keberkesanan :- Menjimatkan masa dengan mengautomatikkan proses penukaran PDF yang disemak ke dalam dokumen teks yang boleh diakses sepenuhnya.
Syarat-syarat: Menetapkan untuk Scanned PDF Text Extraction
Sebelum mengekstrak teks daripada PDF yang dipindai, ikuti langkah-langkah ini untuk memastikan segala-galanya disetkan:
Memasang Aspose.OCR untuk .NET :- Tambah Aspose.OCR kepada projek anda menggunakan NuGet:
dotnet add package Aspose.OCR
Dapatkan lesen anda :- Menetapkan lesen yang diukur anda menggunakan
SetMeteredKey()
untuk mematikan fungsi penuh Aspose.OCR.Memperbaiki PDF yang disemak anda :- Pastikan PDF yang disemak berkualiti tinggi untuk ketepatan pengenalan yang lebih baik.
Langkah-langkah panduan: Menukar PDF yang disemak kepada teks yang boleh dicari
Langkah 1: Menetapkan lesen anda
Mulakan dengan mengkonfigurasi lesen Aspose.OCR anda untuk membuka semua ciri.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Langkah 2: Muat turun PDF yang disemak ke dalam objek input OCR
Seterusnya, muat PDF yang disemak ke dalam OcrInput objek untuk memulakan proses OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Langkah 3: Mengesetkan Enjin OCR untuk Pengiktirafan
Setkan enjin OCR dan tetapkan sebarang tetapan pengenalan, seperti bahasa dan ketepatan.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Langkah 4: Mengekstrak dan mengeluarkan teks yang diiktiraf
Sekarang, mengekstrak teks daripada PDF yang disemak menggunakan enjin OCR.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Langkah 5: Menguji PDF yang boleh dicari
Pastikan bahawa teks yang dikeluarkan boleh dicari dan boleh diedit dengan menguji output dalam penonton PDF atau editor.
Masalah dan penyelesaian umum
1. ketepatan OCR yang rendah
- ** Penyelesaian** : Pastikan PDF yang disemak berkualiti tinggi (sekurang-kurangnya 300 DPI) untuk meningkatkan hasil pengenalan.
2. font yang tidak disokong
- ** Penyelesaian** : Pastikan bahasa yang betul ditetapkan dalam tetapan OCR untuk pengenalan teks yang tepat, terutamanya bagi aksara bukan Latin.
3. perlahan-lahan prestasi untuk PDF besar
- ** Penyelesaian** : Untuk PDF yang besar, memproses dokumen dalam kepingan atau halaman yang lebih kecil untuk mengurangkan penggunaan memori dan mempercepatkan proses.