วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารที่สามารถค้นหาได้
หลายเอกสารที่มีมูลค่าถูกจับในไฟล์ PDF ที่สแกนทําให้พวกเขาไม่สามารถค้นหาได้และไม่เข้าถึงเครื่องมือค้นหาหรือเครื่องใช้การผลิต Aspose.OCR Scanned PDF to Text for .NET ช่วยให้คุณแปลงไฟล์เสถียรภาพเหล่านี้เป็นไฟล์ที่สามารถมองหาได้ได้อย่างสมบูรณ์และสามารถแก้ไขได้ด้วยรหัสขั้นต่ํา
ปัญหาโลกจริง
ข้อตกลง PDF ที่สแกนหนังสือหรือเอกสารไม่สามารถค้นหา indexed หรือคัดลอกได้จนกว่าข้อความจะถูกสกัด การรีทไทม์ด้วยมือช้าและแพงและมีความเสี่ยงในการแนะนําข้อผิดพลาดโดยเฉพาะอย่างยิ่งสําหรับไฟล์ขนาดใหญ่หรือหลายหน้า
ความคิดเห็นเกี่ยวกับโซลูชัน
ASPOSE.OCR สําหรับ .NET สามารถกระบวนการสแกนไฟล์ PDF, การสกัดและส่งออกข้อความในรูปแบบต่างๆ - ทําให้เอกสารที่สามารถค้นหา indeksable และพร้อมสําหรับการทํางานแบบดิจิตอลหรือการปฏิบัติตาม
ข้อกําหนด
- Visual Studio 2019 หรือภายหลัง
- .NET 6.0 หรือเร็วกว่า (หรือ .Net Framework 4.6.2+)
- Aspose.OCR สําหรับ .NET จาก NuGet
- ประสบการณ์การเขียนโปรแกรม C#
PM> Install-Package Aspose.OCR
การดําเนินการขั้นตอนขั้นตอน
ขั้นตอน 1: ติดตั้งและตั้งค่า Aspose.OCR
using Aspose.OCR;
ขั้นตอน 2: เพิ่มไฟล์ PDF ที่สแกน
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
ขั้นตอนที่ 3: การตั้งค่าการยอมรับสําหรับไฟล์ PDF
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts
ขั้นตอน 4: เปิด OCR บน PDFs ที่สแกน
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
ขั้นตอน 5: การส่งออกไปยังรูปแบบที่สามารถค้นหาได้
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf); // Searchable PDF
result.Save("archive_text.txt", SaveFormat.Text); // Plain text
result.Save("archive_word.docx", SaveFormat.Docx); // Word document
}
ขั้นตอน 6: เพิ่มการจัดการข้อผิดพลาดและการยืนยัน
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
ขั้นตอน 7: การเพิ่มประสิทธิภาพสําหรับไฟล์ PDF ขนาดใหญ่และหลายหน้า
- สําหรับไฟล์ PDF ที่มีหลายหน้าเพิ่มไฟล์และตั้งแถวหน้าตามความต้องการ
- การตั้งค่า Tune สําหรับการจัดระเบียบเอกสารและภาษา
- Batch การประมวลผลไฟล์ทั้งหมดในตาราง
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
ขั้นตอน 8: ตัวอย่างที่สมบูรณ์
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("archive_searchable.pdf", SaveFormat.Pdf);
result.Save("archive_text.txt", SaveFormat.Text);
result.Save("archive_word.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
ใช้กรณีและแอปพลิเคชัน
การค้นหาดิจิตอล
แปลงไฟล์สถิติสแกนเป็นทรัพยากรที่สามารถค้นหาและ indexed สําหรับห้องสมุด บริษัท กฎหมายหรือ บริษัท
การดิจิทัลการควบคุมและการปฏิบัติตาม
สารสกัดข้อความจากเอกสารการปฏิบัติตามที่สแกนเพื่อการยืนยันและการตรวจสอบ
การเผยแพร่หนังสือและวิชาการ
การดิจิทัลหนังสือและกระดาษวิจัยเพื่อการเข้าถึง цифрови, การเรียนรู้อิเล็กทรอนิกส์หรือการกระจาย
ความท้าทายและโซลูชั่นทั่วไป
ความท้าทาย 1: คุณภาพต่ําหรือการสแกนที่ลดลง
**โซลูชัน: ** Preprocess สําหรับความชัดเจน ใช้โหมด AUTO สําหรับการจัดการการจัดตั้งที่แข็งแกร่ง
ความท้าทาย 2: PDFs หลายภาษา
**โซลูชัน:**ปรับการตั้งค่าภาษาและทดสอบไฟล์ตัวอย่าง
ความท้าทาย 3: ไฟล์ขนาดใหญ่มากหรือแบช
**โซลูชัน: ** การประมวลผลในชุดที่สามารถจัดการและตรวจสอบการใช้งานของหน่วยความจํา
การพิจารณาประสิทธิภาพ
- กระบวนการแบทช์เพื่อประสิทธิภาพสูงสุด
- ใช้ไฟล์ PDF ที่สแกนคุณภาพดี
- มีวัตถุ OCR หลังจากใช้
แนวทางที่ดีที่สุด
- validate output vs source PDFs ก่อนการรวมกัน
- การจัดเตรียมไฟล์ PDF โดยหัวข้อหรือแผนกเพื่อการจัดการที่ง่ายขึ้น
- การรักษาความปลอดภัยไฟล์ทั้งหมดที่สแกนและประมวลผล
- ใช้เวอร์ชันล่าสุดของ Aspose.OCR สําหรับความแม่นยําที่ดีที่สุด
การ์ตูนขั้นสูง
ฉาก 1: การส่งออกไปยัง JSON สําหรับท่อข้อมูล
foreach (RecognitionResult result in results)
{
result.Save("archive_data.json", SaveFormat.Json);
}
สภาพแวดล้อม 2: Page selective OCR
input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only
ข้อสรุป
Aspose.OCR Scanned PDF to Text for .NET ช่วยให้คุณสามารถแปลงไฟล์ PDF ที่สแกนได้ได้อย่างรวดเร็วเป็นเอกสารที่สามารถค้นหาและแก้ไขได้สําหรับกระแสการทํางานที่ทันสมัย
ค้นหารหัสขั้นสูงมากขึ้นและเคล็ดลับใน Aspose.OCR สําหรับการอ้างอิง API .NET .