วิธีการสกัดข้อความจากไฟล์ PDF ที่สแกนด้วย Aspose.OCR

วิธีการสกัดข้อความจากไฟล์ PDF ที่สแกนด้วย Aspose.OCR

การสกัดข้อความจากไฟล์ PDF ที่สแกนหรือขึ้นอยู่กับภาพที่ใช้เพื่อต้องใช้กระแสทํางานที่ซับซ้อนหรืองานมืออาชีพที่แพง ด้วย Aspose.OCR Scanned PDF to Text for .NET คุณสามารถอัตโนมัติกระบวนการนี้โดยการแปลง PDFs เป็นข้อความที่สามารถค้นหาและแก้ไขได้ด้วยสายรหัสเพียงไม่กี่

ปัญหาโลกจริง

องค์กรมักจะได้รับสัญญารายงานหรือไฟล์เป็นไฟล์ PDF ที่สแกน การคัดลอกข้อความด้วยตนเองหรือการค้นหาภายในเอกสารเหล่านี้เป็นเรื่องบ้าและผิดพลาดทําให้การปฏิบัติตามการจัดเก็บและโครงการการแปลงดิจิตอลลดลง

ความคิดเห็นเกี่ยวกับโซลูชัน

Aspose.OCR for .NET ช่วยให้คุณสามารถกระบวนการสแกนไฟล์ PDF ได้ - การแปลงไฟล์เป็นข้อความหรือ PDF ที่สามารถค้นหาได้ทําให้ข้อมูลสามารถเข้าถึงได้ indeksable และพร้อมสําหรับการทํางานแบบดิจิตอล มันรวดเร็วและแม่นยําและต้องการรหัสขั้นต่ํา

ข้อกําหนด

ก่อนที่คุณจะเริ่มต้นให้แน่ใจว่าคุณมี:

  • Visual Studio 2019 หรือภายหลัง
  • .NET 6.0 หรือเร็วกว่า (หรือ .Net Framework 4.6.2+)
  • Aspose.OCR สําหรับ .NET จาก NuGet
  • ความรู้พื้นฐาน C#
PM> Install-Package Aspose.OCR

การดําเนินการขั้นตอนขั้นตอน

ขั้นตอน 1: ติดตั้งและตั้งค่า Aspose.OCR

เพิ่มแพคเกจ NuGet และอ้างอิง Aspose.OCR:

using Aspose.OCR;

ขั้นตอน 2: เพิ่มไฟล์ PDF ที่สแกนของคุณ

สร้างวัตถุ OcrInput สําหรับป้อน PDF และเพิ่มไฟล์ PDF ที่สแกนของคุณ

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

ขั้นตอนที่ 3: การตั้งค่าการยอมรับ

กําหนดการภาษาและตั้งค่าการรับรู้อื่น ๆ เพื่อตอบสนองเอกสารของคุณ

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

ขั้นตอนที่ 4: การดําเนินการกระบวนการรับรู้

การยอมรับข้อความจากไฟล์ PDF ที่สแกนของคุณ:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

ขั้นตอน 5: การบันทึกหรือส่งออกข้อความที่ได้รับการยอมรับ

ส่งข้อความที่ได้รับการยอมรับไปยังไฟล์หรือแปลงผลลัพธ์เป็น PDFs ที่สามารถค้นหาได้

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

ขั้นตอน 6: เพิ่มการจัดการข้อผิดพลาด

Wrap การรับรู้ในบล็อก try/catch สําหรับความแข็งแรง

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

ขั้นตอน 7: ปรับปรุงไฟล์ PDF ขนาดใหญ่หรือหลายหน้า

  • การประมวลผล PDFs หน้าต่อหน้าสําหรับไฟล์ขนาดใหญ่
  • ใช้การสแกนที่มีคุณภาพสูงสําหรับผลลัพธ์ที่ดีที่สุด
  • กระบวนการแบทช์ใน parallel สําหรับคอลเลกชันขนาดใหญ่
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

ขั้นตอน 8: ตัวอย่างการทํางานที่สมบูรณ์

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

ใช้กรณีและแอปพลิเคชัน

การจัดเก็บข้อมูลดิจิตอล

แปลงห้องสมุดทั้งหมดของเอกสารที่สแกนเป็นไฟล์ที่สามารถค้นหาและ indexable สําหรับการปฏิบัติตามและการจัดการความรู้

การจัดการกฎหมายและสัญญา

สารสัญญาหรือเงื่อนไขจากไฟล์ PDF สําหรับการตรวจสอบอัตโนมัติหรือการลงนามดิจิตอล

การค้นหาเอกสาร Streamlined

อนุญาตให้ค้นหาข้อความเต็มรูปแบบอย่างรวดเร็วในเอกสารฐานความรู้หรือไฟล์กรณี

ความท้าทายและโซลูชั่นทั่วไป

ความท้าทาย 1: คุณภาพต่ําหรือการสแกนที่ลดลง

โซลูชัน: ใช้ตัวกรองการประมวลผลก่อนและสแกนที่มีคุณภาพสูงเมื่อเป็นไปได้

ความท้าทาย 2: PDFs หลายภาษา

**โซลูชัน: **ตั้งค่าภาษาในการกําหนดค่าการรับรู้หรือกระบวนการด้วยตัวเลือกภาษาหลาย

ความท้าทาย 3: ไฟล์ PDF ขนาดใหญ่มาก

**โซลูชัน: ** การประมวลผลในชุดหรือต่อหน้าและตรวจสอบการใช้งานของหน่วยความจํา

การพิจารณาประสิทธิภาพ

  • ใช้ DPI ที่ดีที่สุด (300+) สําหรับไฟล์ PDF ที่สแกน
  • กระบวนการแบทช์สําหรับการส่งผ่านที่ดีที่สุด
  • มีวัตถุ OCR และจัดการไฟล์ที่ปิด

แนวทางที่ดีที่สุด

  • การยืนยันการผลิต OCR ก่อนการอัตโนมัติเพิ่มเติม
  • การจัดเตรียมและบันทึกไฟล์ PDF ที่เดิม
  • ใช้ SaveFormat ที่ถูกต้องสําหรับกระบวนการทํางานของคุณ
  • ปรับปรุง Aspose.OCR โดยปกติสําหรับคุณสมบัติ PDF ใหม่

การ์ตูนขั้นสูง

สภาพแวดล้อม 1: การสกัดหน้าเฉพาะเท่านั้นจาก PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

ฉาก 2: การส่งออกไปยังรูปแบบหลาย

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

ข้อสรุป

Aspose.OCR for .NET ช่วยให้คุณแปลงไฟล์ PDF ที่สแกนเป็นข้อความและไฟล์ที่สามารถค้นหาได้ - การลบการเข้าสู่ระบบด้วยตนเองและทําให้ข้อมูลสามารถเข้าถึงได้สําหรับองค์กรของคุณทั้งหมด

สําหรับรายละเอียดเพิ่มเติมและตัวอย่างดู Aspose.OCR สําหรับการอ้างอิง API .NET .

 แบบไทย