วิธีการดิจิตอลหนังสือและเอกสารหลายคอลัมน์ด้วย Aspose.OCR

วิธีการดิจิตอลหนังสือและเอกสารหลายคอลัมน์ด้วย Aspose.OCR

การสแกนหรือถ่ายภาพของหนังสือและ tạp chíมักจะนําไปสู่รูปภาพที่ซับซ้อนและหลายคอลัมน์ - การท้าทายสําหรับ OCR มาตรฐาน Aspose.OCR สําหรับ .NET ให้การตั้งค่าขั้นสูงเพื่อ استخراجข้อความโครงสร้างที่กําหนดไว้ในกล่องที่เชื่อถือได้เหมาะสําหรับห้องสมุดการวิจัยและการเผยแพร่

ปัญหาโลกจริง

หนังสือพิมพ์และหนังสือพิมพ์มักจะถูกเก็บไว้เป็นภาพสแกนด้วยคอลัมน์บันทึกและภาพอธิบาย การสกัดข้อความที่สามารถอ่านได้และโครงสร้างได้ด้วยตนเองช้าทนต่อความผิดพลาดและแพงสําหรับห้องสมุดหรือเอกสาร

ความคิดเห็นเกี่ยวกับโซลูชัน

Aspose.OCR สําหรับ .NET จัดการโครงสร้างหลายคอลัมน์และซับซ้อนเพื่อรักษาคําสั่งอ่านและช่วยให้คุณสามารถอัตโนมัติการดิจิทัลจํานวนมากของหนังสือและ tạp chíประหยัดเวลาและปรับปรุงความแม่นยําของข้อมูลสําหรับนักวิจัยและผู้เผยแพร่

ข้อกําหนด

ให้แน่ใจว่าคุณมี:

  • Visual Studio 2019 หรือภายหลัง
  • .NET 6.0 หรือเร็วกว่า (หรือ .Net Framework 4.6.2+)
  • Aspose.OCR สําหรับ .NET จาก NuGet
  • ความสามารถพื้นฐาน C#
PM> Install-Package Aspose.OCR

การดําเนินการขั้นตอนขั้นตอน

ขั้นตอน 1: ติดตั้งและตั้งค่า Aspose.OCR

using Aspose.OCR;

ขั้นตอนที่ 2: การสแกนหรือถ่ายภาพของหนังสือ / หน้าซากินของคุณ

เพิ่มภาพหน้าทั้งหมดที่สแกนไปยังป้อนของคุณสําหรับการรับรู้ชุด

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

ขั้นตอนที่ 3: การตั้งค่าการยอมรับหลายคอลัมน์

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

ขั้นตอน 4: สารสกัดข้อความในโครงสร้าง

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

ขั้นตอน 5: ส่งออกหรือบันทึกข้อความดิจิตอล

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

ขั้นตอน 6: เพิ่มการจัดการข้อผิดพลาดและตรวจสอบคุณภาพ

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

ขั้นตอน 7: การเพิ่มประสิทธิภาพสําหรับหนังสือจํานวนมากหรือหายาก

  • Batch การประมวลผลหน้าหนังสือทั้งหมดในโฟลเดอร์
  • ใช้การสแกนความเร็วสูงสําหรับหนังสือที่หายากหรือเก่า
  • การยืนยันหน้าตัวอย่างก่อนที่จะดําเนินการการเก็บรวบรวมทั้งหมด
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

ขั้นตอน 8: ตัวอย่างที่สมบูรณ์

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

ใช้กรณีและแอปพลิเคชัน

ห้องสมุดและมนุษย์ดิจิตอล

อนุญาตให้เครดิตดิจิตอลการค้นหาและการวิเคราะห์ของหนังสือที่หายากและจดหมายประวัติศาสตร์

การเผยแพร่การศึกษาและวิจัย

การดิจิตอลได้อย่างง่ายดายจดหมายการประชุมหรือหนังสือพิมพ์เพื่อการเข้าถึงอิเล็กทรอนิกส์

โครงสร้างหลายภาษาและซับซ้อน

สารสกัดเนื้อหาจากจดหมายที่มีคอลัมน์ภาษาต่างประเทศแถบด้านหรือบันทึก

ความท้าทายและโซลูชั่นทั่วไป

ความท้าทาย 1: ไม่มีคอลัมน์หรือคําอธิบาย

โซลูชัน: ใช้การสแกนที่มีคุณภาพสูงและทดสอบโหมด DOCUMENT/AUTO สําหรับคําสั่งอ่านที่ดีที่สุด

ความท้าทาย 2: คุณภาพ OCR สําหรับหนังสือเก่าหรือเสียหาย

โซลูชัน: ปรับปรุงการสแกนและการยืนยันผลลัพธ์ก่อนการประมวลผลจํานวนมาก

ความท้าทาย 3: การดิจิทัลขนาดใหญ่

**โซลูชัน:**อัตโนมัติกระแสการทํางานและใช้การจัดการข้อผิดพลาดสําหรับการดําเนินงานขนาดใหญ่

การพิจารณาประสิทธิภาพ

  • ใช้สแกนแหล่งที่มาที่ดีโดยเฉพาะอย่างยิ่งสําหรับหนังสือที่หายากหรืออ่อนแอ
  • กระบวนการแบทช์สําหรับสกรู
  • การจัดเก็บผลดิจิตอลในรูปแบบที่ยืดหยุ่น (ข้อความ Word, PDF)

แนวทางที่ดีที่สุด

  • validate output กับหน้าแรกเพื่อความแม่นยํา
  • การจัดเตรียมหน้าหนังสือตามปริมาณและบทเพื่อการรับคืนที่ง่าย
  • Backup ทั้งสแกนและข้อความดิจิตอล
  • ปรับปรุงมอเตอร์ OCR สําหรับการปรับปรุงล่าสุด

การ์ตูนขั้นสูง

ฉาก 1: การดิจิตอลซอฟต์แวร์หลายภาษา

settings.Language = Language.German;

ฉาก 2: การส่งออกไปยัง PDF สําหรับผู้อ่าน eBook

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

ข้อสรุป

Aspose.OCR สําหรับ .NET เป็นวิธีที่รวดเร็วที่สุดในการนําหนังสือและโพสต์ที่ซับซ้อนไปสู่ยุคดิจิตอลพร้อมสําหรับการค้นหาการวิเคราะห์และการแบ่งปัน

ดูตัวอย่างเพิ่มเติมและเคล็ดลับการบูรณาการใน Aspose.OCR สําหรับการอ้างอิง API .NET .

 แบบไทย