วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถค้นหาได้ใน .NET

วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถค้นหาได้ใน .NET

PDFs ที่สแกนเป็นไฟล์ที่ไม่สามารถแก้ไขได้ตามภาพซึ่งทําให้ยากที่จะสกัดข้อความจากพวกเขา อย่างไรก็ตามด้วย Aspose.OCR สําหรับ .NET คุณสามารถแปลงไฟล์ PDFs ที่สแกนเป็นเอกสารข้อความที่สามารถแก้ไขได้และค้นหาได้ซึ่งทําให้การรับข้อมูลและการจัดการเอกสารได้ง่ายมาก

ทําไมคุณควรแปลงไฟล์ PDF ที่สแกนเป็นข้อความที่สามารถค้นหาได้

  • การเข้าถึงที่เพิ่มขึ้น:- PDFs ที่สแกนสามารถแปลงเป็นข้อความที่สามารถค้นหาและแก้ไขได้เพื่อให้สามารถเข้าถึงเนื้อหาได้ดีขึ้น

  • องค์กรข้อมูล:- เมื่อมีการแปลงข้อความสามารถจัดระเบียบการจัดการและใช้ใหม่ในรูปแบบต่างๆเช่น Word, Excel หรือข้อความเรียบ

  • การเก็บรักษาเนื้อหา:- Aspose.OCR ให้แน่ใจว่าภาพต้นฉบับและโครงสร้างจะถูกเก็บไว้ในขณะที่ข้อความจะถูกสกัดให้คุณทั้งเนื้อหาและ kontext

ข้อกําหนด: ได้รับพร้อมสําหรับการสแกนแปลง PDF

ก่อนที่คุณจะเริ่มกระบวนการ استخراجข้อความจากไฟล์ PDF ที่สแกนให้แน่ใจว่า:

  • ติดตั้ง Aspose.OCR สําหรับ .NET:- ติดตั้งห้องสมุดที่จําเป็นโดยใช้ NuGet ด้วยคําสั่ง: dotnet add package Aspose.OCR

  • การกําหนดค่าใบอนุญาต:- Obtain and configure a metered license using the SetMeteredKey() method to unlock all features.

  • เตรียมไฟล์ PDF ที่สแกนของคุณ:- ตรวจสอบให้แน่ใจว่าไฟล์ PDF ที่สแกนของคุณมีคุณภาพดี (300 DPI หรือสูงกว่า) สําหรับผล OCR ที่ดีที่สุด

คู่มือขั้นตอนเพื่อแปลงไฟล์ PDF ที่สแกนเป็นข้อความ

ขั้นตอนที่ 1: สร้างใบอนุญาตของคุณ

เริ่มต้นด้วยการกําหนดค่าใบอนุญาต Aspose.OCR ของคุณเพื่อให้แน่ใจว่าคุณสามารถเข้าถึงคุณสมบัติได้เต็มรูปแบบ

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

ขั้นตอน 2: ดาวน์โหลดไฟล์ PDF ที่สแกนไปยัง OCR Input Object

ดาวน์โหลดไฟล์ PDF ที่สแกนเข้าไปในเครื่อง OCR สําหรับการรับรู้ข้อความ

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

ขั้นตอนที่ 3: การตั้งค่าเครื่องยนต์ OCR สําหรับการรับรู้

ติดตั้งมอเตอร์ OCR เพื่อเพิ่มประสิทธิภาพการสกัดข้อความจาก PDF ที่สแกน

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

ขั้นตอน 4: extract และบันทึกข้อความที่ได้รับการยอมรับ

การประมวลผลไฟล์ PDF ที่สแกนเพื่อดึงข้อความและส่งออกไปยังไฟล์

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

ขั้นตอน 5: ตรวจสอบข้อความที่ได้รับการยอมรับ

หลังจากสกัดตรวจสอบความแม่นยําของการรับรู้ข้อความโดยการตรวจสอบไฟล์ออกหรือแสดงไว้บนคอนโซล

ปัญหาทั่วไปและข้อกําหนด

1. ความแม่นยําของ OCR ไม่ดี

  • โซลูชัน: ตรวจสอบให้แน่ใจว่าคุณภาพ PDF ที่สแกนสูง (300 DPI หรือมากกว่า) เพื่อความแม่นยําในการรับรู้ที่ดีขึ้น

2. การยอมรับภาษาที่ไม่ถูกต้อง

  • โซลูชัน: คําอธิบายการตั้งค่าภาษาใน RecognitionSettings เพื่อผลลัพธ์ที่ดีขึ้นโดยเฉพาะอย่างยิ่งสําหรับตัวอักษรที่ไม่ใช่ภาษาไทย

3. ประสิทธิภาพช้าสําหรับไฟล์ขนาดใหญ่

  • โซลูชัน: การประมวลผลไฟล์ PDF ขนาดใหญ่ในชิ้นส่วนหรือปรับปรุงการใช้งานของหน่วยความจําเพื่อเร่งกระบวนการ OCR
 แบบไทย