Bagaimana untuk menukar PDF yang disemak ke dalam dokumen teks yang boleh dicari dalam .NET

Bagaimana untuk menukar PDF yang disemak ke dalam dokumen teks yang boleh dicari dalam .NET

PDF yang disemak biasanya tidak boleh diedit, fail berasaskan imej, yang menjadikan sukar untuk mengekstrak teks daripadanya.Walau bagaimanapun, dengan Aspose.OCR untuk .NET , anda boleh dengan cepat mengubah PDF-PDF ini ke dalam dokumen teks yang boleh dikedit dan boleh dicari yang membuat pengambilan data dan pengurusan dokumen jauh lebih mudah.

Mengapa anda perlu menukar PDF yang disemak kepada teks yang boleh dicari?

  • Perkh Aksesibiliti yang diperluas :- PDF yang disemak boleh ditukar kepada teks yang boleh dicari dan boleh diedit, membolehkan aksesibiliti yang lebih baik kepada kandungan.

  • • Pengurusan Data * :- Sebaik sahaja ditukar, teks boleh dianjurkan, dimanipulasi, dan digunakan semula dalam pelbagai format seperti Word, Excel, atau teks rata.

  • Penyimpanan kandungan :- Aspose.OCR memastikan bahawa imej asal dan tataletak disimpan semasa teks dikeluarkan, memberikan anda kedua-dua kandungan dan konteks.

Syarat-syarat: Bersedia untuk penukaran PDF

Sebelum anda memulakan proses pengekstrakan teks daripada PDF yang disemak, pastikan perkara berikut:

  • Memasang Aspose.OCR untuk .NET :- Memasang perpustakaan yang diperlukan menggunakan NuGet dengan perintah: dotnet add package Aspose.OCR

  • Pengesahan Permohonan :- Dapatkan dan mengkonfigurasi lesen yang diukur menggunakan SetMeteredKey() Kaedah untuk membuka semua ciri.

  • Memperbaiki PDF anda yang disemak :- Pastikan PDF anda dalam kualiti yang baik (300 DPI atau lebih tinggi) untuk hasil OCR terbaik.

Langkah-langkah panduan untuk menukar PDF yang disemak kepada teks

Langkah 1: Menyediakan lesen anda

Mulakan dengan mengkonfigurasi lesen Aspose.OCR anda untuk memastikan akses penuh kepada ciri-ciri.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Langkah 2: Muat turun PDF yang disemak ke dalam objek input OCR

Muat turun fail PDF yang disemak ke dalam enjin OCR untuk pengenalan teks.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Langkah 3: Mengesetkan Enjin OCR untuk Pengiktirafan

Setkan enjin OCR untuk mengoptimumkan pengekstrakan teks daripada PDF yang disemak.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Langkah 4: Mengekstrak dan menyimpan teks yang diiktiraf

Pemprosesan PDF yang disemak untuk mengekstrak teks dan keluarkannya ke dalam fail.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Langkah 5: Menguji teks yang diiktiraf

Selepas pengekstrakan, semak ketepatan pengenalan teks dengan memeriksa fail output atau memaparkannya pada konsol.

Masalah dan penyelesaian umum

1. ketepatan OCR yang buruk

  • ** Penyelesaian** : Pastikan kualiti PDF yang disemak tinggi (300 DPI atau lebih) untuk ketepatan pengenalan yang lebih baik.

2. pengiktirafan bahasa yang tidak betul

  • ** Penyelesaian ** : Tentukan secara jelas tetapan bahasa dalam PengiktirafanSettings untuk hasil yang lebih baik, terutamanya bagi watak-watak bukan Latin.

3. perlahan prestasi untuk fail besar

  • ** Penyelesaian** : Memproses PDF besar dalam keping atau mengoptimumkan penggunaan memori untuk mempercepatkan proses OCR.
 Melayu