วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถค้นหาได้ใน .NET
การแปลงภาพเหล่านี้เป็นเอกสารข้อความที่สามารถค้นหาได้และแก้ไขได้เปิดตัวโลกของความสามารถในการจัดการเอกสารและการเข้าถึงเนื้อหา ด้วย Aspose.OCR สําหรับ .NET คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นเอกสารที่สามารถค้นหาได้อย่างสมบูรณ์ในขณะที่รักษาภาพเดิม
ทําไมแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถค้นหาได้
การเข้าถึง:- ทําให้เนื้อหาที่สแกนสามารถค้นหาได้ทําให้ง่ายต่อการค้นหาข้อมูลโดยไม่ต้องอ่านด้วยตนเองผ่านเอกสาร
การแก้ไขเนื้อหา:- เมื่อมีการแปลงเป็นข้อความเนื้อหาสามารถแก้ไขปรับปรุงหรือใช้ใหม่ในรูปแบบอื่น ๆ
ประสิทธิภาพ:- ประหยัดเวลาโดยอัตโนมัติกระบวนการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถเข้าถึงได้เต็มรูปแบบ
ข้อกําหนด: การตั้งค่าสําหรับการสแกน PDF Text Extraction
ก่อนที่จะ استخراجข้อความจากไฟล์ PDF ที่สแกนให้ดําเนินการตามขั้นตอนเหล่านี้เพื่อให้แน่ใจว่าทุกอย่างได้รับการตั้งค่า:
ติดตั้ง Aspose.OCR สําหรับ .NET:- เพิ่ม Aspose.OCR ไปยังโครงการของคุณโดยใช้ NuGet:
dotnet add package Aspose.OCR
ได้รับใบอนุญาตของคุณ:- สร้างใบอนุญาตวัดของคุณโดยใช้
SetMeteredKey()
เพื่อล็อคฟังก์ชั่นเต็มของ Aspose.OCRการเตรียมไฟล์ PDF ที่สแกนของคุณ:- ให้แน่ใจว่าไฟล์ PDF ที่สแกนมีคุณภาพดีเพื่อความแม่นยําในการรับรู้ที่ดีขึ้น
คู่มือขั้นตอน: การแปลงไฟล์ PDF ที่สแกนเป็นข้อความที่สามารถค้นหาได้
ขั้นตอนที่ 1: สร้างใบอนุญาตของคุณ
เริ่มต้นโดยการกําหนดค่าใบอนุญาต Aspose.OCR ของคุณเพื่อปลดล็อคคุณสมบัติทั้งหมด
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
ขั้นตอน 2: ดาวน์โหลดไฟล์ PDF ที่สแกนไปยัง OCR Input Object
ต่อไปนี้โหลดไฟล์ PDF ที่สแกนไปยัง OcrInput วัตถุเพื่อเริ่มต้นกระบวนการ OCR
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
ขั้นตอนที่ 3: การตั้งค่าเครื่องยนต์ OCR สําหรับการรับรู้
ติดตั้งมอเตอร์ OCR และกําหนดการรับรู้ใด ๆ เช่นภาษาและความแม่นยํา
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
ขั้นตอนที่ 4: สารสกัดและออกข้อความที่ได้รับการยอมรับ
ตอนนี้เอาข้อความจากไฟล์ PDF ที่สแกนโดยใช้มอเตอร์ OCR
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
ขั้นตอน 5: ตรวจสอบ PDF ที่สามารถค้นหาได้
ตรวจสอบให้แน่ใจว่าข้อความที่สกัดสามารถค้นหาและแก้ไขได้โดยการทดสอบผลลัพธ์ในตัวดู PDF หรือตัวแก้ไข
ปัญหาทั่วไปและข้อกําหนด
1. ความแม่นยําต่ํา OCR
- โซลูชัน: ให้แน่ใจว่าไฟล์ PDF ที่สแกนมีคุณภาพสูง (น้อยกว่า 300 DPI) เพื่อปรับปรุงผลการรับรู้
2. หมายเลขที่ไม่มีการสนับสนุน
- โซลูชัน: ตรวจสอบให้แน่ใจว่าภาษาที่ถูกต้องจะตั้งอยู่ในตั้งค่า OCR เพื่อการรับรู้ข้อความที่ถูกต้องโดยเฉพาะอย่างยิ่งสําหรับตัวอักษรที่ไม่ใช่ภาษาไทย
3. ประสิทธิภาพช้าสําหรับไฟล์ PDF ขนาดใหญ่
- โซลูชัน: สําหรับไฟล์ PDF ขนาดใหญ่โปรดประมวลผลเอกสารในชิ้นส่วนหรือหน้าขนาดเล็กเพื่อลดการใช้หน่วยความจําและเร่งกระบวนการ