วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารที่สามารถค้นหาได้

วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารที่สามารถค้นหาได้

หลายเอกสารที่มีมูลค่าถูกจับในไฟล์ PDF ที่สแกนทําให้พวกเขาไม่สามารถค้นหาได้และไม่เข้าถึงเครื่องมือค้นหาหรือเครื่องใช้การผลิต Aspose.OCR Scanned PDF to Text for .NET ช่วยให้คุณแปลงไฟล์เสถียรภาพเหล่านี้เป็นไฟล์ที่สามารถมองหาได้ได้อย่างสมบูรณ์และสามารถแก้ไขได้ด้วยรหัสขั้นต่ํา

ปัญหาโลกจริง

ข้อตกลง PDF ที่สแกนหนังสือหรือเอกสารไม่สามารถค้นหา indexed หรือคัดลอกได้จนกว่าข้อความจะถูกสกัด การรีทไทม์ด้วยมือช้าและแพงและมีความเสี่ยงในการแนะนําข้อผิดพลาดโดยเฉพาะอย่างยิ่งสําหรับไฟล์ขนาดใหญ่หรือหลายหน้า

ความคิดเห็นเกี่ยวกับโซลูชัน

ASPOSE.OCR สําหรับ .NET สามารถกระบวนการสแกนไฟล์ PDF, การสกัดและส่งออกข้อความในรูปแบบต่างๆ - ทําให้เอกสารที่สามารถค้นหา indeksable และพร้อมสําหรับการทํางานแบบดิจิตอลหรือการปฏิบัติตาม

ข้อกําหนด

  • Visual Studio 2019 หรือภายหลัง
  • .NET 6.0 หรือเร็วกว่า (หรือ .Net Framework 4.6.2+)
  • Aspose.OCR สําหรับ .NET จาก NuGet
  • ประสบการณ์การเขียนโปรแกรม C#
PM> Install-Package Aspose.OCR

การดําเนินการขั้นตอนขั้นตอน

ขั้นตอน 1: ติดตั้งและตั้งค่า Aspose.OCR

using Aspose.OCR;

ขั้นตอน 2: เพิ่มไฟล์ PDF ที่สแกน

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");

ขั้นตอนที่ 3: การตั้งค่าการยอมรับสําหรับไฟล์ PDF

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts

ขั้นตอน 4: เปิด OCR บน PDFs ที่สแกน

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

ขั้นตอน 5: การส่งออกไปยังรูปแบบที่สามารถค้นหาได้

foreach (RecognitionResult result in results)
{
    result.Save("archive_searchable.pdf", SaveFormat.Pdf);   // Searchable PDF
    result.Save("archive_text.txt", SaveFormat.Text);         // Plain text
    result.Save("archive_word.docx", SaveFormat.Docx);       // Word document
}

ขั้นตอน 6: เพิ่มการจัดการข้อผิดพลาดและการยืนยัน

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

ขั้นตอน 7: การเพิ่มประสิทธิภาพสําหรับไฟล์ PDF ขนาดใหญ่และหลายหน้า

  • สําหรับไฟล์ PDF ที่มีหลายหน้าเพิ่มไฟล์และตั้งแถวหน้าตามความต้องการ
  • การตั้งค่า Tune สําหรับการจัดระเบียบเอกสารและภาษา
  • Batch การประมวลผลไฟล์ทั้งหมดในตาราง
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

ขั้นตอน 8: ตัวอย่างที่สมบูรณ์

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive1.pdf");
            input.Add("books.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("archive_searchable.pdf", SaveFormat.Pdf);
                result.Save("archive_text.txt", SaveFormat.Text);
                result.Save("archive_word.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

ใช้กรณีและแอปพลิเคชัน

การค้นหาดิจิตอล

แปลงไฟล์สถิติสแกนเป็นทรัพยากรที่สามารถค้นหาและ indexed สําหรับห้องสมุด บริษัท กฎหมายหรือ บริษัท

การดิจิทัลการควบคุมและการปฏิบัติตาม

สารสกัดข้อความจากเอกสารการปฏิบัติตามที่สแกนเพื่อการยืนยันและการตรวจสอบ

การเผยแพร่หนังสือและวิชาการ

การดิจิทัลหนังสือและกระดาษวิจัยเพื่อการเข้าถึง цифрови, การเรียนรู้อิเล็กทรอนิกส์หรือการกระจาย

ความท้าทายและโซลูชั่นทั่วไป

ความท้าทาย 1: คุณภาพต่ําหรือการสแกนที่ลดลง

**โซลูชัน: ** Preprocess สําหรับความชัดเจน ใช้โหมด AUTO สําหรับการจัดการการจัดตั้งที่แข็งแกร่ง

ความท้าทาย 2: PDFs หลายภาษา

**โซลูชัน:**ปรับการตั้งค่าภาษาและทดสอบไฟล์ตัวอย่าง

ความท้าทาย 3: ไฟล์ขนาดใหญ่มากหรือแบช

**โซลูชัน: ** การประมวลผลในชุดที่สามารถจัดการและตรวจสอบการใช้งานของหน่วยความจํา

การพิจารณาประสิทธิภาพ

  • กระบวนการแบทช์เพื่อประสิทธิภาพสูงสุด
  • ใช้ไฟล์ PDF ที่สแกนคุณภาพดี
  • มีวัตถุ OCR หลังจากใช้

แนวทางที่ดีที่สุด

  • validate output vs source PDFs ก่อนการรวมกัน
  • การจัดเตรียมไฟล์ PDF โดยหัวข้อหรือแผนกเพื่อการจัดการที่ง่ายขึ้น
  • การรักษาความปลอดภัยไฟล์ทั้งหมดที่สแกนและประมวลผล
  • ใช้เวอร์ชันล่าสุดของ Aspose.OCR สําหรับความแม่นยําที่ดีที่สุด

การ์ตูนขั้นสูง

ฉาก 1: การส่งออกไปยัง JSON สําหรับท่อข้อมูล

foreach (RecognitionResult result in results)
{
    result.Save("archive_data.json", SaveFormat.Json);
}

สภาพแวดล้อม 2: Page selective OCR

input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only

ข้อสรุป

Aspose.OCR Scanned PDF to Text for .NET ช่วยให้คุณสามารถแปลงไฟล์ PDF ที่สแกนได้ได้อย่างรวดเร็วเป็นเอกสารที่สามารถค้นหาและแก้ไขได้สําหรับกระแสการทํางานที่ทันสมัย

ค้นหารหัสขั้นสูงมากขึ้นและเคล็ดลับใน Aspose.OCR สําหรับการอ้างอิง API .NET .

 แบบไทย