Bagaimana untuk menukar PDF yang disemak ke dokumen teks yang boleh dicari dalam .NET

PDF yang disemak seringkali mencabar untuk bekerja dengan kerana mereka pada dasarnya hanya imej teks.Mengubah gambar-gambar ini menjadi dokumen teks yang boleh dicari dan boleh diedit membuka dunia kemungkinan untuk pengurusan dokumen dan aksesibiliti kandungan.Dengan Aspose.OCR untuk .NET , anda boleh menukar pdf yang dipindai ke dalam dokumen yang sepenuhnya boleh dikesan sambil mengekalkan gambar asal.

Mengapa mengubah PDF yang disemak menjadi dokumen teks yang boleh dicari?

Aksesibiliti:- Membuat kandungan yang disemak boleh dicari, menjadikannya mudah untuk mencari maklumat tanpa membaca secara manual melalui dokumen.
Pengenalan kepada kandungan:- Sebaik sahaja ditukar kepada teks, kandungan boleh diedit, dikemas kini, atau digunakan semula dalam format lain.
Keselamatan dan keberkesanan:- Menjimatkan masa dengan mengautomatikkan proses penukaran PDF yang disemak ke dalam dokumen teks yang boleh diakses sepenuhnya.

Syarat-syarat: Menetapkan untuk Scanned PDF Text Extraction

Sebelum mengekstrak teks daripada PDF yang dipindai, ikuti langkah-langkah ini untuk memastikan segala-galanya disetkan:

Memasang Aspose.OCR untuk .NET:- Tambah Aspose.OCR kepada projek anda menggunakan NuGet: dotnet add package Aspose.OCR
Dapatkan lesen anda:- Menetapkan lesen yang diukur anda menggunakan SetMeteredKey() untuk mematikan fungsi penuh Aspose.OCR.
Memperbaiki PDF yang disemak anda:- Pastikan PDF yang disemak berkualiti tinggi untuk ketepatan pengenalan yang lebih baik.

Langkah-langkah panduan: Menukar PDF yang disemak kepada teks yang boleh dicari

Langkah 1: Menetapkan lesen anda

Mulakan dengan mengkonfigurasi lesen Aspose.OCR anda untuk membuka semua ciri.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Langkah 2: Muat turun PDF yang disemak ke dalam objek input OCR

Seterusnya, muat turun skan target="_blank" rel="noopener"> Perkhidmatan PDF

masuk ke objek OcrInput untuk memulakan proses OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Langkah 3: Mengesetkan Enjin OCR untuk Pengiktirafan

Setkan enjin OCR dan tetapkan sebarang tetapan pengenalan, seperti bahasa dan ketepatan.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Langkah 4: Mengekstrak dan mengeluarkan teks yang diiktiraf

Sekarang, mengekstrak teks daripada PDF yang disemak menggunakan enjin OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Langkah 5: Menguji PDF yang boleh dicari

Pastikan bahawa teks yang dikeluarkan boleh dicari dan boleh diedit dengan menguji output dalam penonton PDF atau editor.

Masalah dan penyelesaian umum

1. ketepatan OCR yang rendah

Penyelesaian : Pastikan PDF yang disemak berkualiti tinggi (sekurang-kurangnya 300 DPI) untuk meningkatkan hasil pengenalan.

2. font yang tidak disokong

Penyelesaian : Pastikan bahasa yang betul ditetapkan dalam tetapan OCR untuk pengenalan teks yang tepat, terutamanya bagi aksara bukan Latin.

3. perlahan-lahan prestasi untuk PDF besar

Penyelesaian : Untuk PDF yang besar, memproses dokumen dalam kepingan atau halaman yang lebih kecil untuk mengurangkan penggunaan memori dan mempercepatkan proses.