วิธีการสกัดข้อความจากภาพสแกนด้วย Aspose.OCR

วิธีการสกัดข้อความจากภาพสแกนด้วย Aspose.OCR

การสแกนสัญญา, ข้อตกลง, หน้าหนังสือหรือบันทึกเก่ามักจะผลิตไฟล์ภาพ - ไม่สามารถแก้ไขข้อความ Aspose.OCR Scan to Text for .NET ช่วยให้คุณสามารถอัตโนมัติการสกัดข้อความที่โครงสร้างและสามารถค้นหาได้จากเอกสารหรือรูปภาพใด ๆ ที่สกปรกและประหยัดเวลาไม่กี่ชั่วโมงของการเข้าสู่ระบบด้วยตนเอง

ปัญหาโลกจริง

dokuments paper, books, and archives are often stored as images. การ extracting their content for digital workflows, compliance, or research can be slow, costly, และมีแนวโน้มที่จะผิดพลาดถ้าทําด้วยตนเอง.

ความคิดเห็นเกี่ยวกับโซลูชัน

Aspose.OCR Scan to Text for .NET แปลงภาพของหน้าพิมพ์เป็นข้อความที่สามารถใช้งานได้การจัดการโคลนเดียวหลายคอลัมน์และการจัดระเบียบที่ซับซ้อน กระแสการทํางานที่สมบูรณ์แบบสําหรับการดิจิทัลสัญญาหนังสือบันทึกและเอกสารธุรกิจสําหรับการใช้งานที่ทันสมัย

ข้อกําหนด

ให้แน่ใจว่าคุณมี:

  • Visual Studio 2019 หรือภายหลัง
  • .NET 6.0 หรือเร็วกว่า (หรือ .Net Framework 4.6.2+)
  • Aspose.OCR สําหรับ .NET จาก NuGet
  • ความรู้พื้นฐาน C#
PM> Install-Package Aspose.OCR

การดําเนินการขั้นตอนขั้นตอน

ขั้นตอน 1: ติดตั้งและตั้งค่า Aspose.OCR

เพิ่มแพคเกจ NuGet และอ้างอิง Aspose.OCR:

using Aspose.OCR;

ขั้นตอนที่ 2: เพิ่มภาพของคุณสแกน

ดาวน์โหลดไฟล์ภาพเดียวหรือหลายไฟล์เพื่อประมวลผล

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

ขั้นตอนที่ 3: การตั้งค่าการยอมรับ

Tune สําหรับภาษาเอกสารและ layout ตามที่จําเป็น

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

ขั้นตอนที่ 4: การดําเนินการกระบวนการรับรู้

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

ขั้นตอน 5: บันทึกหรือประมวลผลข้อความที่สกัด

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

ขั้นตอน 6: เพิ่มการจัดการข้อผิดพลาด

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

ขั้นตอน 7: ปรับปรุงการจัดตั้งเอกสาร

  • สําหรับหนังสือหรือบทความ, ใช้ DetectAreasMode.DOCUMENT หรือลอง DetecTreaModa.AUTO
  • ภาพก่อนการประมวลผล (เพดาน, deskew) สําหรับความแม่นยําที่ดีที่สุด
  • กระบวนการแบทช์สําหรับไฟล์ขนาดใหญ่
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

ขั้นตอน 8: ตัวอย่างที่สมบูรณ์

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

ใช้กรณีและแอปพลิเคชัน

ข้อตกลงและสัญญาการดิจิทัล

การดิจิทัลเอกสารทางกฎหมายหรือธุรกิจอย่างรวดเร็วสําหรับการค้นหาการจัดเก็บข้อมูลและกระแสการทํางานทาง ψηφιακό

การประมวลผลหนังสือและเอกสาร

แปลงหน้าหนังสือหรือบันทึกประวัติเป็นรูปแบบที่สามารถค้นหาและแก้ไขได้

การสอดคล้องและการสกัดข้อมูล

อนุญาตให้ตรวจสอบการปฏิบัติตามอัตโนมัติการตรวจสอบหรือการสกัดข้อความจากเอกสารพันธุกรรม

ความท้าทายและโซลูชั่นทั่วไป

ความท้าทาย 1: การสแกนคุณภาพต่ําหรือข้อความที่เสียหาย

โซลูชัน: ใช้การประมวลผลก่อนหรือปรับปรุงภาพเพื่อความแม่นยํา OCR ที่ดีขึ้น

ความท้าทาย 2: การจัดตั้งหลายคอลัมน์หรือคอมเพล็กซ์

โซลูชัน: ปรับ DetectAreasMode และทดสอบการจัดการการจัดตั้งที่ดีที่สุด

ความท้าทาย 3: การดิจิทัลแบทช์

โซลูชัน: ใช้การประมวลผลแพทช์และการจัดการทรัพยากรสําหรับงานขนาดใหญ่

การพิจารณาประสิทธิภาพ

  • กระบวนการแบทช์สําหรับความเร็วและสแกน
  • ใช้ภาพแหล่งที่มาที่มีคุณภาพดี
  • มีวัตถุ OCR หลังจากใช้

แนวทางที่ดีที่สุด

  • เสมอยืนยันข้อความที่สกัดก่อนอัตโนมัติหรือเก็บข้อมูล
  • ใช้การตั้งค่าการรับรู้ที่ถูกต้องสําหรับประเภทเอกสาร
  • การสแกนสํารองข้อมูลเดิมสําหรับการอ้างอิง
  • ผลการทดสอบ OCR บนชุดตัวอย่างก่อนการผลิต

การ์ตูนขั้นสูง

ฉาก 1: การสกัดเอกสารหลายภาษา

settings.Language = Language.French;

ฉาก 2: การส่งออกไปยัง JSON สําหรับการบูรณาการ

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

ข้อสรุป

Aspose.OCR Scan to Text for .NET เป็นวิธีที่รวดเร็วที่สุดในการแปลงภาพและเอกสารกระดาษที่สแกนเป็นข้อความที่สามารถใช้งานได้และแก้ไขได้ - เหมาะสําหรับโครงการทางกฎหมายวิชาการหรือธุรกิจ

ดูตัวอย่างและรายละเอียดทางเทคนิคเพิ่มเติมใน Aspose.OCR สําหรับการอ้างอิง API .NET .

 แบบไทย