วิธีแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่ค้นหาได้ใน .NET
Scanned PDFs มักจะทำงานได้ยากเพราะมันเป็นเพียงภาพของข้อความ การแปลงภาพเหล่านี้ให้เป็นเอกสารข้อความที่ค้นหาได้และแก้ไขได้เปิดโลกแห่งความเป็นไปได้สำหรับการจัดการเอกสารและการเข้าถึงเนื้อหา ด้วย Aspose.OCR for .NET คุณสามารถแปลง PDF ที่สแกนแล้วให้เป็นเอกสารที่ค้นหาได้เต็มรูปแบบในขณะที่ยังคงรักษาภาพต้นฉบับไว้
ทำไมต้องแปลง Scanned PDFs เป็นเอกสารข้อความที่ค้นหาได้?
- การเข้าถึง:
- ทำให้เนื้อหาที่สแกนค้นหาได้ ทำให้หาข้อมูลได้ง่ายโดยไม่ต้องอ่านเอกสารด้วยตนเอง
- การแก้ไขเนื้อหา:
- เมื่อแปลงเป็นข้อความแล้ว เนื้อหาสามารถแก้ไข อัปเดต หรือใช้ซ้ำในรูปแบบอื่นได้
- ประสิทธิภาพ:
- ประหยัดเวลาโดยการทำให้กระบวนการแปลง PDF ที่สแกนแล้วเป็นเอกสารข้อความที่เข้าถึงได้เต็มรูปแบบเป็นอัตโนมัติ
ข้อกำหนดเบื้องต้น: การตั้งค่าสำหรับการดึงข้อความจาก PDF ที่สแกนแล้ว
ก่อนที่จะดึงข้อความจาก PDF ที่สแกนแล้ว ให้ทำตามขั้นตอนเหล่านี้เพื่อให้แน่ใจว่าทุกอย่างถูกตั้งค่า:
- ติดตั้ง Aspose.OCR for .NET:
- เพิ่ม Aspose.OCR ลงในโปรเจกต์ของคุณโดยใช้ NuGet:
dotnet add package Aspose.OCR
- เพิ่ม Aspose.OCR ลงในโปรเจกต์ของคุณโดยใช้ NuGet:
- ขอรับใบอนุญาตของคุณ:
- ตั้งค่าใบอนุญาตที่มีการวัดการใช้งานโดยใช้
SetMeteredKey()
เพื่อปลดล็อกฟังก์ชันการทำงานทั้งหมดของ Aspose.OCR
- ตั้งค่าใบอนุญาตที่มีการวัดการใช้งานโดยใช้
- เตรียม PDF ที่สแกนแล้วของคุณ:
- ตรวจสอบให้แน่ใจว่า PDF ที่สแกนแล้วมีคุณภาพดีเพื่อความแม่นยำในการรู้จำที่ดีกว่า
คู่มือทีละขั้นตอน: การแปลง PDF ที่สแกนแล้วเป็นข้อความที่ค้นหาได้
ขั้นตอนที่ 1: ตั้งค่าใบอนุญาตของคุณ
เริ่มต้นด้วยการกำหนดค่าใบอนุญาต Aspose.OCR ของคุณเพื่อปลดล็อกฟีเจอร์ทั้งหมด
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
ขั้นตอนที่ 2: โหลด PDF ที่สแกนลงในวัตถุ OCR Input
ถัดไป โหลด PDF ที่สแกนลงในวัตถุ OcrInput เพื่อเริ่มกระบวนการ OCR
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // ประมวลผล 3 หน้าแรก
Console.WriteLine("Scanned PDF loaded successfully.");
ขั้นตอนที่ 3: กำหนดค่า OCR Engine สำหรับการรู้จำ
ตั้งค่า OCR engine และกำหนดการตั้งค่าการรู้จำ เช่น ภาษาและความแม่นยำ
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // ตั้งค่าภาษา OCR
Console.WriteLine("OCR engine configured.");
ขั้นตอนที่ 4: ดึงและส่งออกข้อความที่รู้จำได้
ตอนนี้ ดึงข้อความจาก PDF ที่สแกนโดยใช้ OCR engine
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// ส่งออกข้อความที่รู้จำได้
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// บันทึกผลลัพธ์ไปยังไฟล์ข้อความ
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
ขั้นตอนที่ 5: ทดสอบ PDF ที่ค้นหาได้
ตรวจสอบให้แน่ใจว่าข้อความที่ดึงออกมาค้นหาได้และแก้ไขได้โดยการทดสอบผลลัพธ์ในโปรแกรมดู PDF หรือโปรแกรมแก้ไข
ปัญหาทั่วไปและวิธีแก้ไข
1. ความแม่นยำของ OCR ต่ำ
- วิธีแก้ไข: ตรวจสอบให้แน่ใจว่า PDF ที่สแกนมีคุณภาพสูง (อย่างน้อย 300 DPI) เพื่อปรับปรุงผลลัพธ์การรู้จำ
2. ฟอนต์ที่ไม่รองรับ
- วิธีแก้ไข: ตรวจสอบให้แน่ใจว่าภาษาที่ถูกต้องถูกตั้งค่าในการตั้งค่า OCR สำหรับการรู้จำข้อความที่แม่นยำ โดยเฉพาะสำหรับตัวอักษรที่ไม่ใช่ละติน
3. ประสิทธิภาพช้าใน PDF ขนาดใหญ่
- วิธีแก้ไข: สำหรับ PDF ขนาดใหญ่ ให้ประมวลผลเอกสารในส่วนหรือหน้าที่เล็กลงเพื่อลดการใช้หน่วยความจำและเพิ่มความเร็วในการทำงาน