วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถค้นหาได้ใน .NET

วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถค้นหาได้ใน .NET

การแปลงภาพเหล่านี้เป็นเอกสารข้อความที่สามารถค้นหาได้และแก้ไขได้เปิดตัวโลกของความสามารถในการจัดการเอกสารและการเข้าถึงเนื้อหา ด้วย Aspose.OCR สําหรับ .NET คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นเอกสารที่สามารถค้นหาได้อย่างสมบูรณ์ในขณะที่รักษาภาพเดิม

ทําไมแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถค้นหาได้

  • การเข้าถึง:- ทําให้เนื้อหาที่สแกนสามารถค้นหาได้ทําให้ง่ายต่อการค้นหาข้อมูลโดยไม่ต้องอ่านด้วยตนเองผ่านเอกสาร

  • การแก้ไขเนื้อหา:- เมื่อมีการแปลงเป็นข้อความเนื้อหาสามารถแก้ไขปรับปรุงหรือใช้ใหม่ในรูปแบบอื่น ๆ

  • ประสิทธิภาพ:- ประหยัดเวลาโดยอัตโนมัติกระบวนการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถเข้าถึงได้เต็มรูปแบบ

ข้อกําหนด: การตั้งค่าสําหรับการสแกน PDF Text Extraction

ก่อนที่จะ استخراجข้อความจากไฟล์ PDF ที่สแกนให้ดําเนินการตามขั้นตอนเหล่านี้เพื่อให้แน่ใจว่าทุกอย่างได้รับการตั้งค่า:

  • ติดตั้ง Aspose.OCR สําหรับ .NET:- เพิ่ม Aspose.OCR ไปยังโครงการของคุณโดยใช้ NuGet: dotnet add package Aspose.OCR

  • ได้รับใบอนุญาตของคุณ:- สร้างใบอนุญาตวัดของคุณโดยใช้ SetMeteredKey() เพื่อล็อคฟังก์ชั่นเต็มของ Aspose.OCR

  • การเตรียมไฟล์ PDF ที่สแกนของคุณ:- ให้แน่ใจว่าไฟล์ PDF ที่สแกนมีคุณภาพดีเพื่อความแม่นยําในการรับรู้ที่ดีขึ้น

คู่มือขั้นตอน: การแปลงไฟล์ PDF ที่สแกนเป็นข้อความที่สามารถค้นหาได้

ขั้นตอนที่ 1: สร้างใบอนุญาตของคุณ

เริ่มต้นโดยการกําหนดค่าใบอนุญาต Aspose.OCR ของคุณเพื่อปลดล็อคคุณสมบัติทั้งหมด

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

ขั้นตอน 2: ดาวน์โหลดไฟล์ PDF ที่สแกนไปยัง OCR Input Object

ต่อไปนี้โหลดไฟล์ PDF ที่สแกนไปยัง OcrInput วัตถุเพื่อเริ่มต้นกระบวนการ OCR

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

ขั้นตอนที่ 3: การตั้งค่าเครื่องยนต์ OCR สําหรับการรับรู้

ติดตั้งมอเตอร์ OCR และกําหนดการรับรู้ใด ๆ เช่นภาษาและความแม่นยํา

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

ขั้นตอนที่ 4: สารสกัดและออกข้อความที่ได้รับการยอมรับ

ตอนนี้เอาข้อความจากไฟล์ PDF ที่สแกนโดยใช้มอเตอร์ OCR

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

ขั้นตอน 5: ตรวจสอบ PDF ที่สามารถค้นหาได้

ตรวจสอบให้แน่ใจว่าข้อความที่สกัดสามารถค้นหาและแก้ไขได้โดยการทดสอบผลลัพธ์ในตัวดู PDF หรือตัวแก้ไข

ปัญหาทั่วไปและข้อกําหนด

1. ความแม่นยําต่ํา OCR

  • โซลูชัน: ให้แน่ใจว่าไฟล์ PDF ที่สแกนมีคุณภาพสูง (น้อยกว่า 300 DPI) เพื่อปรับปรุงผลการรับรู้

2. หมายเลขที่ไม่มีการสนับสนุน

  • โซลูชัน: ตรวจสอบให้แน่ใจว่าภาษาที่ถูกต้องจะตั้งอยู่ในตั้งค่า OCR เพื่อการรับรู้ข้อความที่ถูกต้องโดยเฉพาะอย่างยิ่งสําหรับตัวอักษรที่ไม่ใช่ภาษาไทย

3. ประสิทธิภาพช้าสําหรับไฟล์ PDF ขนาดใหญ่

  • โซลูชัน: สําหรับไฟล์ PDF ขนาดใหญ่โปรดประมวลผลเอกสารในชิ้นส่วนหรือหน้าขนาดเล็กเพื่อลดการใช้หน่วยความจําและเร่งกระบวนการ
 แบบไทย