วิธีแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่ค้นหาได้ใน .NET

Scanned PDFs มักจะทำงานได้ยากเพราะมันเป็นเพียงภาพของข้อความ การแปลงภาพเหล่านี้ให้เป็นเอกสารข้อความที่ค้นหาได้และแก้ไขได้เปิดโลกแห่งความเป็นไปได้สำหรับการจัดการเอกสารและการเข้าถึงเนื้อหา ด้วย Aspose.OCR for .NET คุณสามารถแปลง PDF ที่สแกนแล้วให้เป็นเอกสารที่ค้นหาได้เต็มรูปแบบในขณะที่ยังคงรักษาภาพต้นฉบับไว้

ทำไมต้องแปลง Scanned PDFs เป็นเอกสารข้อความที่ค้นหาได้?

การเข้าถึง:
- ทำให้เนื้อหาที่สแกนค้นหาได้ ทำให้หาข้อมูลได้ง่ายโดยไม่ต้องอ่านเอกสารด้วยตนเอง
การแก้ไขเนื้อหา:
- เมื่อแปลงเป็นข้อความแล้ว เนื้อหาสามารถแก้ไข อัปเดต หรือใช้ซ้ำในรูปแบบอื่นได้
ประสิทธิภาพ:
- ประหยัดเวลาโดยการทำให้กระบวนการแปลง PDF ที่สแกนแล้วเป็นเอกสารข้อความที่เข้าถึงได้เต็มรูปแบบเป็นอัตโนมัติ

ข้อกำหนดเบื้องต้น: การตั้งค่าสำหรับการดึงข้อความจาก PDF ที่สแกนแล้ว

ก่อนที่จะดึงข้อความจาก PDF ที่สแกนแล้ว ให้ทำตามขั้นตอนเหล่านี้เพื่อให้แน่ใจว่าทุกอย่างถูกตั้งค่า:

ติดตั้ง Aspose.OCR for .NET:
- เพิ่ม Aspose.OCR ลงในโปรเจกต์ของคุณโดยใช้ NuGet:
  dotnet add package Aspose.OCR
ขอรับใบอนุญาตของคุณ:
- ตั้งค่าใบอนุญาตที่มีการวัดการใช้งานโดยใช้ SetMeteredKey() เพื่อปลดล็อกฟังก์ชันการทำงานทั้งหมดของ Aspose.OCR
เตรียม PDF ที่สแกนแล้วของคุณ:
- ตรวจสอบให้แน่ใจว่า PDF ที่สแกนแล้วมีคุณภาพดีเพื่อความแม่นยำในการรู้จำที่ดีกว่า

คู่มือทีละขั้นตอน: การแปลง PDF ที่สแกนแล้วเป็นข้อความที่ค้นหาได้

ขั้นตอนที่ 1: ตั้งค่าใบอนุญาตของคุณ

เริ่มต้นด้วยการกำหนดค่าใบอนุญาต Aspose.OCR ของคุณเพื่อปลดล็อกฟีเจอร์ทั้งหมด

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

ขั้นตอนที่ 2: โหลด PDF ที่สแกนลงในวัตถุ OCR Input

ถัดไป โหลด PDF ที่สแกนลงในวัตถุ OcrInput เพื่อเริ่มกระบวนการ OCR

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // ประมวลผล 3 หน้าแรก
Console.WriteLine("Scanned PDF loaded successfully.");

ขั้นตอนที่ 3: กำหนดค่า OCR Engine สำหรับการรู้จำ

ตั้งค่า OCR engine และกำหนดการตั้งค่าการรู้จำ เช่น ภาษาและความแม่นยำ

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // ตั้งค่าภาษา OCR
Console.WriteLine("OCR engine configured.");

ขั้นตอนที่ 4: ดึงและส่งออกข้อความที่รู้จำได้

ตอนนี้ ดึงข้อความจาก PDF ที่สแกนโดยใช้ OCR engine

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// ส่งออกข้อความที่รู้จำได้
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// บันทึกผลลัพธ์ไปยังไฟล์ข้อความ
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

ขั้นตอนที่ 5: ทดสอบ PDF ที่ค้นหาได้

ตรวจสอบให้แน่ใจว่าข้อความที่ดึงออกมาค้นหาได้และแก้ไขได้โดยการทดสอบผลลัพธ์ในโปรแกรมดู PDF หรือโปรแกรมแก้ไข

ปัญหาทั่วไปและวิธีแก้ไข

1. ความแม่นยำของ OCR ต่ำ

วิธีแก้ไข: ตรวจสอบให้แน่ใจว่า PDF ที่สแกนมีคุณภาพสูง (อย่างน้อย 300 DPI) เพื่อปรับปรุงผลลัพธ์การรู้จำ

2. ฟอนต์ที่ไม่รองรับ

วิธีแก้ไข: ตรวจสอบให้แน่ใจว่าภาษาที่ถูกต้องถูกตั้งค่าในการตั้งค่า OCR สำหรับการรู้จำข้อความที่แม่นยำ โดยเฉพาะสำหรับตัวอักษรที่ไม่ใช่ละติน

3. ประสิทธิภาพช้าใน PDF ขนาดใหญ่

วิธีแก้ไข: สำหรับ PDF ขนาดใหญ่ ให้ประมวลผลเอกสารในส่วนหรือหน้าที่เล็กลงเพื่อลดการใช้หน่วยความจำและเพิ่มความเร็วในการทำงาน