วิธีแปลงไฟล์ PDF ที่สแกนแล้วให้เป็นเอกสารข้อความที่ค้นหาได้ใน .NET
Scanned PDFs เป็นไฟล์ที่ไม่สามารถแก้ไขได้ ซึ่งเป็นไฟล์ที่มีพื้นฐานจากภาพ ทำให้การดึงข้อความจากไฟล์เหล่านี้ทำได้ยาก อย่างไรก็ตาม ด้วย Aspose.OCR for .NET คุณสามารถเปลี่ยนไฟล์ PDF ที่สแกนแล้วเหล่านี้ให้เป็นเอกสารข้อความที่สามารถแก้ไขได้และค้นหาได้ ซึ่งทำให้การดึงข้อมูลและการจัดการเอกสารง่ายขึ้นมาก
ทำไมคุณควรแปลง Scanned PDFs เป็นข้อความที่ค้นหาได้?
- การเข้าถึงที่ดีขึ้น:
- Scanned PDFs สามารถแปลงเป็นข้อความที่สามารถค้นหาและแก้ไขได้ ทำให้เข้าถึงเนื้อหาได้ดีขึ้น
- การจัดระเบียบข้อมูล:
- เมื่แปลงแล้ว ข้อความสามารถจัดระเบียบ ปรับเปลี่ยน และนำกลับมาใช้ใหม่ในรูปแบบต่างๆ เช่น Word, Excel หรือข้อความธรรมดา
- การรักษาเนื้อหา:
- Aspose.OCR รับประกันว่าภาพต้นฉบับและรูปแบบจะถูกเก็บรักษาไว้ในขณะที่ดึงข้อความออกมา ทำให้คุณได้ทั้งเนื้อหาและบริบท
ข้อกำหนดเบื้องต้น: การเตรียมพร้อมสำหรับการแปลง PDF ที่สแกนแล้ว
ก่อนที่คุณจะเริ่มกระบวนการดึงข้อความจาก PDF ที่สแกนแล้ว ให้แน่ใจว่าคุณได้ทำตามสิ่งต่อไปนี้:
- ติดตั้ง Aspose.OCR for .NET:
- ติดตั้งไลบรารีที่จำเป็นโดยใช้ NuGet ด้วยคำสั่ง:
dotnet add package Aspose.OCR
- ติดตั้งไลบรารีที่จำเป็นโดยใช้ NuGet ด้วยคำสั่ง:
- การกำหนดค่าลิขสิทธิ์:
- รับและกำหนดค่าลิขสิทธิ์ที่มีการวัดการใช้งานโดยใช้วิธี
SetMeteredKey()
เพื่อปลดล็อกฟีเจอร์ทั้งหมด
- รับและกำหนดค่าลิขสิทธิ์ที่มีการวัดการใช้งานโดยใช้วิธี
- เตรียม PDF ที่สแกนแล้วของคุณ:
- ตรวจสอบให้แน่ใจว่า PDF ที่สแกนแล้วของคุณมีคุณภาพดี (300 DPI หรือสูงกว่า) เพื่อให้ได้ผลลัพธ์ OCR ที่ดีที่สุด
คู่มือทีละขั้นตอนในการแปลง Scanned PDFs เป็นข้อความ
ขั้นตอนที่ 1: กำหนดค่าลิขสิทธิ์ของคุณ
เริ่มต้นโดยการกำหนดค่าลิขสิทธิ์ Aspose.OCR ของคุณเพื่อให้แน่ใจว่าคุณสามารถเข้าถึงฟีเจอร์ทั้งหมดได้
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("กำหนดค่าลิขสิทธิ์ที่มีการวัดการใช้งานเรียบร้อยแล้ว");
ขั้นตอนที่ 2: โหลด PDF ที่สแกนแล้วเข้าสู่วัตถุ OCR Input
โหลดไฟล์ PDF ที่สแกนแล้วเข้าสู่เครื่องยนต์ OCR สำหรับการรู้จำข้อความ
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // ระบุหน้าที่จะประมวลผล (3 หน้าต้น)
Console.WriteLine("โหลด PDF ที่สแกนแล้วเรียบร้อยแล้ว");
ขั้นตอนที่ 3: กำหนดค่าเครื่องยนต์ OCR สำหรับการรู้จำ
ตั้งค่าเครื่องยนต์ OCR เพื่อเพิ่มประสิทธิภาพการดึงข้อความจาก PDF ที่สแกนแล้ว
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // ระบุภาษาของ OCR (ใช้ Latin สำหรับภาษาอังกฤษ)
Console.WriteLine("กำหนดค่าการตั้งค่า OCR เรียบร้อยแล้ว");
ขั้นตอนที่ 4: ดึงและบันทึกข้อความที่รู้จำได้
ประมวลผล PDF ที่สแกนแล้วเพื่อดึงข้อความและส่งออกไปยังไฟล์
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("การดึงข้อความสำเร็จ");
// ส่งออกข้อความที่รู้จำได้ไปยังไฟล์
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("ข้อความที่รู้จำได้ถูกบันทึกไปยัง recognized_text.txt");
ขั้นตอนที่ 5: ทดสอบข้อความที่รู้จำได้
หลังจากการดึงข้อมูล ให้ตรวจสอบความถูกต้องของการรู้จำข้อความโดยการตรวจสอบไฟล์ที่ส่งออกหรือแสดงบนคอนโซล
ปัญหาทั่วไปและวิธีแก้ไข
1. ความแม่นยำของ OCR ต่ำ
- วิธีแก้ไข: ตรวจสอบให้แน่ใจว่าคุณภาพของ PDF ที่สแกนสูง (300 DPI หรือมากกว่า) เพื่อให้ได้ความแม่นยำในการรู้จำที่ดีกว่า
2. การรู้จำภาษาผิด
- วิธีแก้ไข: ระบุการตั้งค่าภาษาใน RecognitionSettings อย่างชัดเจนเพื่อให้ได้ผลลัพธ์ที่ดีกว่า โดยเฉพาะสำหรับอักขระที่ไม่ใช่ละติน
3. ประสิทธิภาพช้าในไฟล์ขนาดใหญ่
- วิธีแก้ไข: ประมวลผล PDF ขนาดใหญ่เป็นส่วนหรือเพิ่มประสิทธิภาพการใช้หน่วยความจำเพื่อเร่งกระบวนการ OCR