วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถค้นหาได้ใน .NET
PDFs ที่สแกนเป็นไฟล์ที่ไม่สามารถแก้ไขได้ตามภาพซึ่งทําให้ยากที่จะสกัดข้อความจากพวกเขา อย่างไรก็ตามด้วย Aspose.OCR สําหรับ .NET คุณสามารถแปลงไฟล์ PDFs ที่สแกนเป็นเอกสารข้อความที่สามารถแก้ไขได้และค้นหาได้ซึ่งทําให้การรับข้อมูลและการจัดการเอกสารได้ง่ายมาก
ทําไมคุณควรแปลงไฟล์ PDF ที่สแกนเป็นข้อความที่สามารถค้นหาได้
การเข้าถึงที่เพิ่มขึ้น:- PDFs ที่สแกนสามารถแปลงเป็นข้อความที่สามารถค้นหาและแก้ไขได้เพื่อให้สามารถเข้าถึงเนื้อหาได้ดีขึ้น
องค์กรข้อมูล:- เมื่อมีการแปลงข้อความสามารถจัดระเบียบการจัดการและใช้ใหม่ในรูปแบบต่างๆเช่น Word, Excel หรือข้อความเรียบ
การเก็บรักษาเนื้อหา:- Aspose.OCR ให้แน่ใจว่าภาพต้นฉบับและโครงสร้างจะถูกเก็บไว้ในขณะที่ข้อความจะถูกสกัดให้คุณทั้งเนื้อหาและ kontext
ข้อกําหนด: ได้รับพร้อมสําหรับการสแกนแปลง PDF
ก่อนที่คุณจะเริ่มกระบวนการ استخراجข้อความจากไฟล์ PDF ที่สแกนให้แน่ใจว่า:
ติดตั้ง Aspose.OCR สําหรับ .NET:- ติดตั้งห้องสมุดที่จําเป็นโดยใช้ NuGet ด้วยคําสั่ง:
dotnet add package Aspose.OCR
การกําหนดค่าใบอนุญาต:- Obtain and configure a metered license using the
SetMeteredKey()
method to unlock all features.เตรียมไฟล์ PDF ที่สแกนของคุณ:- ตรวจสอบให้แน่ใจว่าไฟล์ PDF ที่สแกนของคุณมีคุณภาพดี (300 DPI หรือสูงกว่า) สําหรับผล OCR ที่ดีที่สุด
คู่มือขั้นตอนเพื่อแปลงไฟล์ PDF ที่สแกนเป็นข้อความ
ขั้นตอนที่ 1: สร้างใบอนุญาตของคุณ
เริ่มต้นด้วยการกําหนดค่าใบอนุญาต Aspose.OCR ของคุณเพื่อให้แน่ใจว่าคุณสามารถเข้าถึงคุณสมบัติได้เต็มรูปแบบ
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
ขั้นตอน 2: ดาวน์โหลดไฟล์ PDF ที่สแกนไปยัง OCR Input Object
ดาวน์โหลดไฟล์ PDF ที่สแกนเข้าไปในเครื่อง OCR สําหรับการรับรู้ข้อความ
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
ขั้นตอนที่ 3: การตั้งค่าเครื่องยนต์ OCR สําหรับการรับรู้
ติดตั้งมอเตอร์ OCR เพื่อเพิ่มประสิทธิภาพการสกัดข้อความจาก PDF ที่สแกน
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
ขั้นตอน 4: extract และบันทึกข้อความที่ได้รับการยอมรับ
การประมวลผลไฟล์ PDF ที่สแกนเพื่อดึงข้อความและส่งออกไปยังไฟล์
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
ขั้นตอน 5: ตรวจสอบข้อความที่ได้รับการยอมรับ
หลังจากสกัดตรวจสอบความแม่นยําของการรับรู้ข้อความโดยการตรวจสอบไฟล์ออกหรือแสดงไว้บนคอนโซล
ปัญหาทั่วไปและข้อกําหนด
1. ความแม่นยําของ OCR ไม่ดี
- โซลูชัน: ตรวจสอบให้แน่ใจว่าคุณภาพ PDF ที่สแกนสูง (300 DPI หรือมากกว่า) เพื่อความแม่นยําในการรับรู้ที่ดีขึ้น
2. การยอมรับภาษาที่ไม่ถูกต้อง
- โซลูชัน: คําอธิบายการตั้งค่าภาษาใน RecognitionSettings เพื่อผลลัพธ์ที่ดีขึ้นโดยเฉพาะอย่างยิ่งสําหรับตัวอักษรที่ไม่ใช่ภาษาไทย
3. ประสิทธิภาพช้าสําหรับไฟล์ขนาดใหญ่
- โซลูชัน: การประมวลผลไฟล์ PDF ขนาดใหญ่ในชิ้นส่วนหรือปรับปรุงการใช้งานของหน่วยความจําเพื่อเร่งกระบวนการ OCR