วิธีแปลงไฟล์ PDF ที่สแกนแล้วให้เป็นเอกสารข้อความที่ค้นหาได้ใน .NET

วิธีแปลงไฟล์ PDF ที่สแกนแล้วให้เป็นเอกสารข้อความที่ค้นหาได้ใน .NET

Scanned PDFs เป็นไฟล์ที่ไม่สามารถแก้ไขได้ ซึ่งเป็นไฟล์ที่มีพื้นฐานจากภาพ ทำให้การดึงข้อความจากไฟล์เหล่านี้ทำได้ยาก อย่างไรก็ตาม ด้วย Aspose.OCR for .NET คุณสามารถเปลี่ยนไฟล์ PDF ที่สแกนแล้วเหล่านี้ให้เป็นเอกสารข้อความที่สามารถแก้ไขได้และค้นหาได้ ซึ่งทำให้การดึงข้อมูลและการจัดการเอกสารง่ายขึ้นมาก

ทำไมคุณควรแปลง Scanned PDFs เป็นข้อความที่ค้นหาได้?

  1. การเข้าถึงที่ดีขึ้น:
    • Scanned PDFs สามารถแปลงเป็นข้อความที่สามารถค้นหาและแก้ไขได้ ทำให้เข้าถึงเนื้อหาได้ดีขึ้น
  2. การจัดระเบียบข้อมูล:
    • เมื่แปลงแล้ว ข้อความสามารถจัดระเบียบ ปรับเปลี่ยน และนำกลับมาใช้ใหม่ในรูปแบบต่างๆ เช่น Word, Excel หรือข้อความธรรมดา
  3. การรักษาเนื้อหา:
    • Aspose.OCR รับประกันว่าภาพต้นฉบับและรูปแบบจะถูกเก็บรักษาไว้ในขณะที่ดึงข้อความออกมา ทำให้คุณได้ทั้งเนื้อหาและบริบท

ข้อกำหนดเบื้องต้น: การเตรียมพร้อมสำหรับการแปลง PDF ที่สแกนแล้ว

ก่อนที่คุณจะเริ่มกระบวนการดึงข้อความจาก PDF ที่สแกนแล้ว ให้แน่ใจว่าคุณได้ทำตามสิ่งต่อไปนี้:

  1. ติดตั้ง Aspose.OCR for .NET:
    • ติดตั้งไลบรารีที่จำเป็นโดยใช้ NuGet ด้วยคำสั่ง:
      dotnet add package Aspose.OCR
  2. การกำหนดค่าลิขสิทธิ์:
    • รับและกำหนดค่าลิขสิทธิ์ที่มีการวัดการใช้งานโดยใช้วิธี SetMeteredKey() เพื่อปลดล็อกฟีเจอร์ทั้งหมด
  3. เตรียม PDF ที่สแกนแล้วของคุณ:
    • ตรวจสอบให้แน่ใจว่า PDF ที่สแกนแล้วของคุณมีคุณภาพดี (300 DPI หรือสูงกว่า) เพื่อให้ได้ผลลัพธ์ OCR ที่ดีที่สุด

คู่มือทีละขั้นตอนในการแปลง Scanned PDFs เป็นข้อความ

ขั้นตอนที่ 1: กำหนดค่าลิขสิทธิ์ของคุณ

เริ่มต้นโดยการกำหนดค่าลิขสิทธิ์ Aspose.OCR ของคุณเพื่อให้แน่ใจว่าคุณสามารถเข้าถึงฟีเจอร์ทั้งหมดได้

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("กำหนดค่าลิขสิทธิ์ที่มีการวัดการใช้งานเรียบร้อยแล้ว");

ขั้นตอนที่ 2: โหลด PDF ที่สแกนแล้วเข้าสู่วัตถุ OCR Input

โหลดไฟล์ PDF ที่สแกนแล้วเข้าสู่เครื่องยนต์ OCR สำหรับการรู้จำข้อความ

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // ระบุหน้าที่จะประมวลผล (3 หน้าต้น)
Console.WriteLine("โหลด PDF ที่สแกนแล้วเรียบร้อยแล้ว");

ขั้นตอนที่ 3: กำหนดค่าเครื่องยนต์ OCR สำหรับการรู้จำ

ตั้งค่าเครื่องยนต์ OCR เพื่อเพิ่มประสิทธิภาพการดึงข้อความจาก PDF ที่สแกนแล้ว

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // ระบุภาษาของ OCR (ใช้ Latin สำหรับภาษาอังกฤษ)
Console.WriteLine("กำหนดค่าการตั้งค่า OCR เรียบร้อยแล้ว");

ขั้นตอนที่ 4: ดึงและบันทึกข้อความที่รู้จำได้

ประมวลผล PDF ที่สแกนแล้วเพื่อดึงข้อความและส่งออกไปยังไฟล์

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("การดึงข้อความสำเร็จ");

// ส่งออกข้อความที่รู้จำได้ไปยังไฟล์
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("ข้อความที่รู้จำได้ถูกบันทึกไปยัง recognized_text.txt");

ขั้นตอนที่ 5: ทดสอบข้อความที่รู้จำได้

หลังจากการดึงข้อมูล ให้ตรวจสอบความถูกต้องของการรู้จำข้อความโดยการตรวจสอบไฟล์ที่ส่งออกหรือแสดงบนคอนโซล


ปัญหาทั่วไปและวิธีแก้ไข

1. ความแม่นยำของ OCR ต่ำ

  • วิธีแก้ไข: ตรวจสอบให้แน่ใจว่าคุณภาพของ PDF ที่สแกนสูง (300 DPI หรือมากกว่า) เพื่อให้ได้ความแม่นยำในการรู้จำที่ดีกว่า

2. การรู้จำภาษาผิด

  • วิธีแก้ไข: ระบุการตั้งค่าภาษาใน RecognitionSettings อย่างชัดเจนเพื่อให้ได้ผลลัพธ์ที่ดีกว่า โดยเฉพาะสำหรับอักขระที่ไม่ใช่ละติน

3. ประสิทธิภาพช้าในไฟล์ขนาดใหญ่

  • วิธีแก้ไข: ประมวลผล PDF ขนาดใหญ่เป็นส่วนหรือเพิ่มประสิทธิภาพการใช้หน่วยความจำเพื่อเร่งกระบวนการ OCR
 แบบไทย