วิธีการสกัดข้อมูลตารางจากภาพด้วย Aspose.OCR
การ extracting tables from scanned or photographed images is often a manual, error-prone process. With Aspose.OCR Table to Text for .NET, you can automate the extraction of structured table data from images—saving time, reducing errors, and enabling seamless integration with databases, Excel, or reporting tools. คุณสามารถอัตโนมัติการดึงดูดข้อมูลตารางที่โครงสร้างขึ้นจากภาพเพื่อช่วยประหยัดเวลาลดความผิดพลาดและช่วยให้มีการบูรณาการได้อย่างราบรื่นกับฐานข้อมูล Excel หรือเครื่องมือรายงาน
ปัญหาโลกจริง
ธุรกิจมักจะได้รับตารางในบัญชีรายงานหรือแบบฟอร์มเช่นภาพหรือสแกน การป้อนข้อมูลเหล่านี้ด้วยตนเองไปยังแผ่นแถบหรือแพลตฟอร์ตการวิเคราะห์นั้นไม่มีประสิทธิภาพและเป็นข้อผิดพลาดโดยเฉพาะอย่างยิ่งสําหรับปริมาณขนาดใหญ่หรือโต๊ะที่ซับซ้อน
ความคิดเห็นเกี่ยวกับโซลูชัน
Aspose.OCR Table to Text for .NET อัตโนมัติการตรวจจับตารางและสกัดข้อมูลจากภาพระบุโครงสร้างเซลล์และเนื้อหาอย่างแม่นยํา สิ่งนี้ช่วยให้คุณสามารถแปลงแท็บที่สแกนหรือถ่ายภาพเป็นรูปแบบที่กําหนดเองสามารถค้นหาและแก้ไขได้ด้วยรหัสขั้นต่ํา
ข้อกําหนด
ก่อนที่จะเริ่มต้นคุณจะต้อง:
- Visual Studio 2019 หรือภายหลัง
- .NET 6.0 หรือเร็วกว่า (หรือ .Net Framework 4.6.2+)
- Aspose.OCR สําหรับ .NET จาก NuGet
- ความรู้พื้นฐาน C#
PM> Install-Package Aspose.OCR
การดําเนินการขั้นตอนขั้นตอน
ขั้นตอน 1: ติดตั้งและตั้งค่า Aspose.OCR
เพิ่มแพคเกจ Aspose.OCR และรวมพื้นที่ชื่อที่จําเป็น:
using Aspose.OCR;
ขั้นตอนที่ 2: การเตรียมรายการภาพตาราง
เพิ่มภาพตารางหนึ่งหรือหลายภาพไปยังป้อนของคุณ สําหรับการสกัดชุดใช้ไฟล์หลายไฟล์
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
ขั้นตอนที่ 3: การตั้งค่าการรับรู้ตาราง
เปิดใช้งานโหมดตรวจจับตารางเพื่อให้แน่ใจว่าโครงสร้างได้รับการรับรู้อย่างแม่นยํา
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
ขั้นตอนที่ 4: การเรียกใช้กระบวนการรับรู้ตาราง
การระบุตารางด้วยการตั้งค่าที่กําหนดเอง:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
ขั้นตอน 5: การส่งออกและใช้ข้อมูลตาราง
บันทึกหรือประมวลผลข้อมูลตารางที่ได้รับการยอมรับ คุณสามารถส่งออกไปยังข้อความ Excel, JSON หรือรูปแบบอื่น ๆ
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
ขั้นตอน 6: เพิ่มการจัดการข้อผิดพลาด
เพิ่มการจัดการพิเศษเพื่อสร้างโซลูชั่นที่แข็งแกร่ง
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
ขั้นตอน 7: การเพิ่มประสิทธิภาพสําหรับตารางที่ซับซ้อน
- ใช้สแกน / ภาพที่มีความละเอียดสูงสําหรับการตรวจจับโครงสร้างที่ถูกต้อง
- การทดสอบด้วยการจัดตั้งโต๊ะต่างๆ (เซลล์ผสมหัวหลายเส้นขอบ)
- Tune การตั้งค่าการรับรู้ตามที่จําเป็น
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
ขั้นตอน 8: ตัวอย่างการทํางานที่สมบูรณ์
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
ใช้กรณีและแอปพลิเคชัน
รายงานทางการเงินและบัญชี
การสกัดตารางการซื้อขายจากภาพไปยัง Excel หรือระบบฐานข้อมูลโดยอัตโนมัติ
การวิจัยและวิเคราะห์
การดิจิตอลตารางจากงานสแกนหรือแบบฟอร์มการสอบถามเพื่อวิเคราะห์ข้อมูล
การถ่ายโอนข้อมูลอัตโนมัติ
การย้ายเอกสารพันธุกรรมหรือบันทึกกระดาษที่สแกนไปยังรูปแบบที่โครงสร้างสมัยใหม่
ความท้าทายและโซลูชั่นทั่วไป
ความท้าทาย 1: Blurry หรือ รูปแบบโต๊ะที่ซับซ้อน
โซลูชัน: ใช้ภาพที่ชัดเจนขึ้นหรือทดลองใช้การประมวลผลก่อนเพื่อปรับปรุงการรับรู้โครงสร้าง
ความท้าทาย 2: การจัดตั้งโต๊ะที่ไม่ใช่มาตรฐาน
โซลูชัน: ตรวจสอบและปรับการตั้งค่าสําหรับการจัดระเบียบที่ซับซ้อนหรือตารางไม่ จํากัด
ความท้าทาย 3: ชิ้นส่วนขนาดใหญ่หรือประเภทภาพผสม
โซลูชัน: ใช้การประมวลผลชุดและสแกนตารางเพื่ออัตโนมัติการสกัดจากไฟล์จํานวนมาก
การพิจารณาประสิทธิภาพ
- ใช้ภาพที่มีความคมชัดสูง
- กระบวนการแบทช์เพื่อประสิทธิภาพ
- มีวัตถุ OCR หลังจากใช้
แนวทางที่ดีที่สุด
- โปรดยืนยันข้อมูลตารางที่ส่งออกก่อนการประมวลผลต่อไป
- ภาพก่อนการประมวลผลสําหรับการตรวจจับโครงสร้างที่ดีที่สุด
- การสแกนและบันทึกภาพ / ภาพเดิม
- ใช้รูปแบบการส่งออกที่เหมาะสมสําหรับการไหลงานของคุณ (CSV, XLSX, JSON)
การ์ตูนขั้นสูง
สภาพแวดล้อม 1: การสกัดตารางภาษาผสม
settings.Language = Language.Chinese;
ฉาก 2: การผสมผสานตารางและสกัดข้อความ
settings.DetectAreasMode = DetectAreasMode.COMBINE;
ข้อสรุป
Aspose.OCR Table to Text for .NET แปลงตารางภาพเป็นข้อมูลที่โครงสร้างและสามารถแก้ไขได้ - ไม่จําเป็นต้องเข้าด้วยตนเอง การรายงานทางการเงินการวิเคราะห์และการจัดเก็บข้อมูลดิจิตอลอย่างรวดเร็วด้วยการ استخراجโต๊ะที่ถูกต้องและอัตโนมัติ
สําหรับตัวอย่างเพิ่มเติมและรายละเอียดทางเทคนิคเยี่ยมชม Aspose.OCR สําหรับการอ้างอิง API .NET .