วิธีการแปลงไฟล์ PDF ที่สแกนเป็นเอกสารที่สามารถค้นหาได

เอกสารที่มีมูลค่าจํานวนมากถูกจับในไฟล์ PDF ที่สแกนทําให้พวกเขาไม่สามารถค้นหาได้และไม่เข้าถึงเครื่องมือค้นหาหรืออุปกรณ์การผลิต คู่มือ PDF to Text for .NET ช่วยให้คุณแปลงไฟล์เสถียรภาพเหล่านี้เป็นเอกสารที่สามารถค้นหาได้และแก้ไขได้ด้วยรหัสขั้นต่ํา.

ปัญหาโลกจริง

ข้อตกลง PDF ที่สแกนหนังสือหรือเอกสารไม่สามารถค้นหา indexed หรือคัดลอกได้จนกว่าข้อความจะถูกสกัด การรีทไทม์ด้วยมือช้าและแพงและมีความเสี่ยงในการแนะนําข้อผิดพลาดโดยเฉพาะอย่างยิ่งสําหรับไฟล์ขนาดใหญ่หรือหลายหน้า.

ความคิดเห็นเกี่ยวกับโซลูชัน

Aspose.OCR สําหรับ .NET สามารถกระบวนการสแกนไฟล์ PDF, การสกัดและส่งออกข้อความในรูปแบบต่างๆ - ทําให้เอกสารที่สามารถค้นหา indeksable และพร้อมสําหรับการทํางานแบบดิจิตอลหรือการปฏิบัติตาม.

ข้อกําหนด

Visual Studio 2019 หรือภายหลัง
.NET 6.0 หรือเร็วกว่า (หรือ .NET Framework 4.6.2+)
Aspose.OCR สําหรับ .NET จาก NuGet
ประสบการณ์การเขียนโปรแกรม C

PM> Install-Package Aspose.OCR

การดําเนินการขั้นตอนขั้นตอน

ขั้นตอน 1: ติดตั้งและตั้งค่า Aspose.OCR

using Aspose.OCR;

ขั้นตอน 2: เพิ่มไฟล์ PDF ที่สแกน

OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive1.pdf");
input.Add("books.pdf");

ขั้นตอนที่ 3: การตั้งค่าการยอมรับสําหรับไฟล์ PDF

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO; // Best for mixed document layouts

ขั้นตอน 4: เปิด OCR บน PDFs ที่สแกน

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

ขั้นตอน 5: การส่งออกไปยังรูปแบบที่สามารถค้นหาได

foreach (RecognitionResult result in results)
{
    result.Save("archive_searchable.pdf", SaveFormat.Pdf);   // Searchable PDF
    result.Save("archive_text.txt", SaveFormat.Text);         // Plain text
    result.Save("archive_word.docx", SaveFormat.Docx);       // Word document
}

ขั้นตอน 6: เพิ่มการจัดการข้อผิดพลาดและการยืนยัน

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

ขั้นตอน 7: การเพิ่มประสิทธิภาพสําหรับไฟล์ PDF ขนาดใหญ่และหลายหน้า

สําหรับไฟล์ PDF ที่มีหลายหน้าเพิ่มไฟล์และตั้งแถวหน้าตามความต้องการ
การตั้งค่า Tune สําหรับการจัดระเบียบเอกสารและภาษา
Batch การประมวลผลไฟล์ทั้งหมดในตาราง

foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

ขั้นตอน 8: ตัวอย่างที่สมบูรณ

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("archive1.pdf");
            input.Add("books.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.AUTO;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("archive_searchable.pdf", SaveFormat.Pdf);
                result.Save("archive_text.txt", SaveFormat.Text);
                result.Save("archive_word.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

ใช้กรณีและแอปพลิเคชัน

การค้นหาดิจิตอล

แปลงไฟล์สถิติสแกนเป็นทรัพยากรที่สามารถค้นหาและ indexed สําหรับห้องสมุด บริษัท กฎหมายหรือ บริษัท.

การดิจิทัลการควบคุมและการปฏิบัติตาม

สารสกัดข้อความจากเอกสารการปฏิบัติตามที่สแกนเพื่อการยืนยันและการตรวจสอบ.

การเผยแพร่หนังสือและวิชาการ

การดิจิทัลหนังสือและกระดาษวิจัยเพื่อการเข้าถึง цифрови, การเรียนรู้อิเล็กทรอนิกส์หรือการกระจาย.

ความท้าทายและโซลูชั่นทั่วไป

ความท้าทาย 1: คุณภาพต่ําหรือการสแกนที่ลดลง

โซลูชัน: Preprocess สําหรับความชัดเจน ใช้โหมด AUTO สําหรับการจัดการการจัดตั้งที่แข็งแกร่ง.

ความท้าทาย 2: PDFs หลายภาษา

**โซลูชัน:**ปรับการตั้งค่าภาษาและทดสอบไฟล์ตัวอย่าง.

ความท้าทาย 3: ไฟล์ขนาดใหญ่มากหรือแบช

โซลูชัน: การประมวลผลในชุดที่สามารถจัดการและตรวจสอบการใช้งานของหน่วยความจํา.

การพิจารณาประสิทธิภาพ

กระบวนการแบทช์เพื่อประสิทธิภาพสูงสุด
ใช้ไฟล์ PDF ที่สแกนคุณภาพด
มีวัตถุ OCR หลังจากใช

แนวทางที่ดีที่สุด

validate output vs source PDFs ก่อนการรวมกัน
การจัดเตรียมไฟล์ PDF โดยหัวข้อหรือแผนกเพื่อการจัดการที่ง่ายขึ้น
การรักษาความปลอดภัยไฟล์ทั้งหมดที่สแกนและประมวลผล
ใช้เวอร์ชันล่าสุดของ Aspose.OCR สําหรับความแม่นยําที่ดีที่สุด

การ์ตูนขั้นสูง

ฉาก 1: การส่งออกไปยัง JSON สําหรับท่อข้อมูล

foreach (RecognitionResult result in results)
{
    result.Save("archive_data.json", SaveFormat.Json);
}

สภาพแวดล้อม 2: Page selective OCR

input.Add("compliance.pdf", 0, 5); // Recognize first 5 pages only

ข้อสรุป

Aspose.OCR Scanned PDF to Text for .NET ช่วยให้คุณสามารถแปลงไฟล์ PDF ที่สแกนได้ได้อย่างรวดเร็วเป็นเอกสารที่สามารถค้นหาและแก้ไขได้สําหรับกระแสการทํางานที่ทันสมัย.

ค้นหารหัสขั้นสูงมากขึ้นและเคล็ดลับใน Aspose.OCR สําหรับการอ้างอิง API .NET .