วิธีการสกัดข้อความจากไฟล์ PDF ที่สแกนใน .NET โดยใช้ Aspose.OCR
การแปลงภาพเหล่านี้เป็นเอกสารข้อความที่สามารถค้นหาได้และแก้ไขได้เปิดตัวโลกของความสามารถในการจัดการเอกสารและการเข้าถึงเนื้อหา ด้วย Aspose.OCR สําหรับ .NET คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นเอกสารที่สามารถค้นหาได้อย่างสมบูรณ์ในขณะที่รักษาภาพเดิม
ทําไม OCR (การรับรู้ตัวอักษรแสง) เป็นสิ่งสําคัญสําหรับไฟล์ PDF ที่สแกน
การสกัดข้อมูล:- OCR ช่วยให้คุณแปลงข้อความที่สแกนเป็นข้อมูลที่สามารถอ่านได้ด้วยเครื่องซึ่งสามารถแก้ไขและ indexed ได้
ความสามารถในการค้นหา:- โดยการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารที่สามารถค้นหาได้คุณสามารถค้นหาข้อมูลที่เกี่ยวข้องได้อย่างรวดเร็วโดยไม่ต้องค้นหาด้วยตนเองผ่านหน้า
เพิ่มประสิทธิภาพการผลิต:- การประหยัดเวลาโดยอัตโนมัติการแปลงเอกสารที่สแกนเป็นรูปแบบที่สามารถแก้ไขได้เช่น Word หรือ Excel
ข้อกําหนด: การตั้งค่าสําหรับการสแกน PDF Text Extraction
ก่อนที่คุณจะเริ่ม استخراجข้อความจากไฟล์ PDF ที่สแกนให้แน่ใจว่าขั้นตอนต่อไปนี้จะเสร็จสมบูรณ์:
ติดตั้ง Aspose.OCR สําหรับ .NET:- เพิ่ม Aspose.OCR ไปยังโครงการของคุณโดยใช้ NuGet:
dotnet add package Aspose.OCR
ได้รับใบอนุญาตมาตรฐาน:- สร้างใบอนุญาตวัดของคุณเพื่อล็อคฟังก์ชั่นทั้งหมดของห้องสมุด Aspose.OCR โดยใช้
SetMeteredKey()
.เตรียมไฟล์ PDF ที่สแกนของคุณ:- ตรวจสอบให้แน่ใจว่าไฟล์ PDF ที่สแกนของคุณมีคุณภาพสูง ผลที่มีคุณภาพดีขึ้นใน OCR ที่ถูกต้องมากขึ้น
คู่มือขั้นตอน: การสกัดข้อความจากไฟล์ PDF ที่สแกน
ขั้นตอนที่ 1: ติดตั้งห้องสมุดที่ต้องการ
เริ่มต้นโดยการติดตั้ง Aspose.OCR for .NET ในโครงการของคุณ คุณสามารถทําได้โดยตรงจาก NuGet
dotnet add package Aspose.OCR
ขั้นตอนที่ 2: ติดตั้งคีย์ใบอนุญาตของคุณ
ก่อนที่จะดําเนินการตั้งค่าใบอนุญาตของคุณสําหรับ Aspose.OCR เพื่อล็อคฟังก์ชั่นทั้งหมด
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
ขั้นตอนที่ 3: ดาวน์โหลดไฟล์ PDF ที่สแกนไปยัง OCR Input Object
คุณจะต้องโหลดไฟล์ PDF ที่สแกนลงใน OcrInput
object. Aspose.OCR สนับสนุนการสแกนหลายหน้าของ PDF
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
ขั้นตอน 4: การประมวลผลไฟล์ PDF ที่สแกนโดยใช้เครื่องยนต์ OCR
ด้วยไฟล์ PDF ที่โหลดแล้วส่งไปยังมอเตอร์ Aspose OCR สําหรับการรับรู้
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
ขั้นตอน 5: ออกข้อความที่ได้รับการยอมรับหรือบันทึกไว้
เมื่อ OCR เครื่องประมวลผล PDF คุณสามารถส่งข้อความที่ได้รับการยอมรับได้โดยตรงหรือบันทึกไว้ในไฟล์
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
ขั้นตอน 6: การทดสอบและเพิ่มประสิทธิภาพผลลัพธ์ OCR
หลังจากดึงข้อความทดสอบการส่งออกเพื่อความแม่นยํา หากจําเป็นคุณสามารถพิมพ์การตั้งค่า OCR เพื่อปรับปรุงผลลัพธ์สําหรับการจัดตั้งเอกสารที่แตกต่างกัน
ปัญหาทั่วไปและข้อกําหนด
1. ความแม่นยําของ OCR ไม่ดี
- โซลูชัน: ให้แน่ใจว่าคุณภาพ PDF ที่สแกนสูง ใช้สแกนความละเอียดสูงเพื่อปรับปรุงความแม่นยําในการรับรู้
2. หมายเลขที่ไม่มีการสนับสนุน
- โซลูชัน: ให้การตั้งค่าภาษาที่ถูกต้องในตัวเลือก OCR เพื่อเพิ่มการรับรู้สําหรับตัวอักษรที่ไม่ใช่ภาษาไทย
3. ประสิทธิภาพช้า
- โซลูชัน: แปลงไฟล์ PDF ในชิ้นส่วนหรือหน้าขนาดเล็กเพื่อการประมวลผลอย่างรวดเร็วโดยเฉพาะอย่างยิ่งสําหรับเอกสารขนาดใหญ่