วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถค้นหาได้ใน .NET

การแปลงภาพเหล่านี้เป็นเอกสารข้อความที่สามารถค้นหาได้และแก้ไขได้เปิดตัวโลกของความสามารถในการจัดการเอกสารและการเข้าถึงเนื้อหา ด้วย Aspose.OCR สําหรับ .NET คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นเอกสารที่สามารถค้นหาได้อย่างสมบูรณ์ในขณะที่รักษาภาพเดิม.

ทําไมแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถค้นหาได?

การเข้าถึง:- ทําให้เนื้อหาที่สแกนสามารถค้นหาได้ทําให้ง่ายต่อการค้นหาข้อมูลโดยไม่ต้องอ่านด้วยตนเองผ่านเอกสาร.
การแก้ไขเนื้อหา:- เมื่อมีการแปลงเป็นข้อความเนื้อหาสามารถแก้ไขปรับปรุงหรือใช้ใหม่ในรูปแบบอื่น ๆ.
ประสิทธิภาพ:- ประหยัดเวลาโดยอัตโนมัติกระบวนการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารข้อความที่สามารถเข้าถึงได้เต็มรูปแบบ.

ข้อกําหนด: การตั้งค่าสําหรับการสแกน PDF Text Extraction

ก่อนที่จะ استخراجข้อความจากไฟล์ PDF ที่สแกนให้ดําเนินการตามขั้นตอนเหล่านี้เพื่อให้แน่ใจว่าทุกอย่างได้รับการตั้งค่า:

ติดตั้ง Aspose.OCR สําหรับ .NET:- เพิ่ม Aspose.OCR ไปยังโครงการของคุณโดยใช้ NuGet: dotnet add package Aspose.OCR
ได้รับใบอนุญาตของคุณ:- สร้างใบอนุญาตวัดของคุณโดยใช SetMeteredKey() เพื่อล็อคฟังก์ชั่นเต็มของ Aspose.OCR.
การเตรียมไฟล์ PDF ที่สแกนของคุณ:- ให้แน่ใจว่าไฟล์ PDF ที่สแกนมีคุณภาพดีเพื่อความแม่นยําในการรับรู้ที่ดีขึ้น.

คู่มือขั้นตอน: การแปลงไฟล์ PDF ที่สแกนเป็นข้อความที่สามารถค้นหาได

ขั้นตอนที่ 1: สร้างใบอนุญาตของคุณ

เริ่มต้นโดยการกําหนดค่าใบอนุญาต Aspose.OCR ของคุณเพื่อปลดล็อคคุณสมบัติทั้งหมด.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

ขั้นตอน 2: ดาวน์โหลดไฟล์ PDF ที่สแกนไปยัง OCR Input Object

ต่อไปนี้โหลดการสแกน target="_blank" rel="noopener"> คู่มือ PDF

เข้าสู่วัตถุ OcrInput เพื่อเริ่มต้นกระบวนการ OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

ขั้นตอนที่ 3: การตั้งค่าเครื่องยนต์ OCR สําหรับการรับร

ติดตั้งมอเตอร์ OCR และกําหนดการรับรู้ใด ๆ เช่นภาษาและความแม่นยํา.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

ขั้นตอนที่ 4: สารสกัดและออกข้อความที่ได้รับการยอมรับ

ตอนนี้เอาข้อความจากไฟล์ PDF ที่สแกนโดยใช้มอเตอร์ OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

ขั้นตอน 5: ตรวจสอบ PDF ที่สามารถค้นหาได

ตรวจสอบให้แน่ใจว่าข้อความที่สกัดสามารถค้นหาและแก้ไขได้โดยการทดสอบผลลัพธ์ในตัวดู PDF หรือตัวแก้ไข.

ปัญหาทั่วไปและข้อกําหนด

1. ความแม่นยําต่ํา OCR

โซลูชัน: ให้แน่ใจว่าไฟล์ PDF ที่สแกนมีคุณภาพสูง (น้อยกว่า 300 DPI) เพื่อปรับปรุงผลการรับร.

2. หมายเลขที่ไม่มีการสนับสนุน

โซลูชัน: ตรวจสอบให้แน่ใจว่าภาษาที่ถูกต้องจะตั้งอยู่ในตั้งค่า OCR เพื่อการรับรู้ข้อความที่ถูกต้องโดยเฉพาะอย่างยิ่งสําหรับตัวอักษรที่ไม่ใช่ภาษาไทย.

3. ประสิทธิภาพช้าสําหรับไฟล์ PDF ขนาดใหญ

โซลูชัน: สําหรับไฟล์ PDF ขนาดใหญ่โปรดประมวลผลเอกสารในชิ้นส่วนหรือหน้าขนาดเล็กเพื่อลดการใช้หน่วยความจําและเร่งกระบวนการ.