Bagaimana untuk mengekstrak teks daripada PDF yang disemak dalam .NET menggunakan Aspose.OCR

PDF yang disemak seringkali mencabar untuk bekerja dengan kerana mereka pada dasarnya hanya imej teks.Mengubah gambar-gambar ini menjadi dokumen teks yang boleh dicari dan boleh diedit membuka dunia kemungkinan untuk pengurusan dokumen dan aksesibiliti kandungan.Dengan Aspose.OCR untuk .NET , anda boleh menukar pdf yang dipindai ke dalam dokumen yang sepenuhnya boleh dikesan sambil mengekalkan gambar asal.

Mengapa OCR (Optical Character Recognition) Penting untuk PDF yang Dipindai

Pengeluaran Data:- OCR membolehkan anda menukar teks yang disemak ke dalam data yang boleh dibaca oleh mesin, dan boleh diedit dan diindeks.
boleh dicari:- Dengan menukar PDF yang disemak ke dalam dokumen yang boleh dicari, anda boleh dengan cepat mencari maklumat yang relevan tanpa carian manual melalui halaman.
Meningkatkan produktiviti:- Menjimatkan masa dengan mengautomatikkan penukaran dokumen yang disemak ke dalam format yang boleh diedit seperti Word atau Excel.

Syarat-syarat: Menetapkan untuk Scanned PDF Text Extraction

Sebelum anda mula mengekstrak teks daripada PDF anda, pastikan langkah-langkah berikut selesai:

Memasang Aspose.OCR untuk .NET:- Tambah Aspose.OCR kepada projek anda menggunakan NuGet: dotnet add package Aspose.OCR
Dapatkan lesen yang diukur:- Setkan lesen yang diukur anda untuk membuka semua ciri-ciri perpustakaan Aspose.OCR menggunakan SetMeteredKey().
Memperbaiki PDF anda yang disemak:- Pastikan PDF yang disemak anda berkualiti tinggi. hasil kualiti yang lebih baik dalam OCR yang paling tepat.

Langkah-langkah panduan: Mengekstrak teks daripada PDF yang disemak

Langkah 1: Menyediakan perpustakaan yang diperlukan

Mulakan dengan memasang Aspose.OCR untuk .NET dalam projek anda. anda boleh melakukannya secara langsung daripada NuGet.

dotnet add package Aspose.OCR

Langkah 2: Setkan kunci lesen anda

Sebelum melanjutkan, tetapkan lesen anda untuk Aspose.OCR untuk membuka semua ciri.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Langkah 3: Muat turun PDF yang disemak ke dalam objek input OCR

Anda akan perlu memuatkan skan target="_blank" rel="noopener"> Perkhidmatan PDF

masuk ke dalam OcrInput Object. Aspose.OCR menyokong pemindaian pelbagai halaman PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Langkah 4: Pemprosesan PDF yang disemak menggunakan enjin OCR

Dengan PDF yang dimuat naik, hantar ke enjin Aspose OCR untuk pengenalan.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Langkah 5: Keluarkan teks yang diiktiraf atau simpan

Sebaik sahaja enjin OCR memproses PDF, anda boleh mengeksport teks yang diiktiraf secara langsung atau menyimpannya ke dalam fail.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Langkah 6: Ujian dan Mengoptimumkan Hasil OCR

Selepas mengekstrak teks, ujian output untuk ketepatan.Jika perlu, anda boleh menggandakan tetapan OCR untuk meningkatkan hasil untuk tataletak dokumen yang berbeza.

Masalah dan penyelesaian umum

1. ketepatan OCR yang buruk

Penyelesaian : Pastikan kualiti PDF yang disemak adalah tinggi. gunakan pemindaian resolusi tinggi untuk meningkatkan ketepatan pengenalan.

2. font yang tidak disokong

Penyelesaian : Menyediakan tetapan bahasa yang betul dalam pilihan OCR untuk meningkatkan pengiktirafan bagi watak-watak bukan Latin.

3. prestasi perlahan

Penyelesaian : Memecahkan PDF ke dalam kepingan kecil atau halaman untuk pemprosesan yang lebih cepat, terutamanya untuk dokumen besar.