วิธีการ OCR แปลงเอกสารสแกนเป็นข้อความแก้ไข
การรับรู้ตัวอักษรแสง (OCR) ได้ปฏิวัติวิธีการที่เราจัดการเอกสารกระดาษในโลกดิจิตอลของเรา ทุกวันหลายล้านไฟล์สแกนภาพข้อความและไฟล์พันธุกรรมจะถูกแปลงจากภาพเสถียรภาพเป็นข้อความที่สามารถค้นหาได้และแก้ไขได้ผ่านกระบวนการ OCR ที่ซับซ้อน แต่วิธีการที่การเปลี่ยนแปลงนี้เกิดขึ้นและสิ่งที่ทําให้ระบบ OCC ของสมัยใหม่มีประสิทธิภาพมาก
ความเข้าใจของท่อ OCR เต็ม
เทคโนโลยี OCR ต่อไปนี้เป็นท่อระบบที่แปลงข้อมูลข้อความภาพเป็นตัวอักษรที่สามารถอ่านได้ด้วยเครื่อง กระบวนการนี้เกี่ยวข้องกับขั้นตอนที่สําคัญหลายอย่างที่ทํางานร่วมกันเพื่อให้บรรลุการรับรู้ข้อความที่ถูกต้อง
ขั้นตอนที่ 1: การประมวลผลภาพ
ก่อนที่การรับรู้ตัวละครใด ๆ อาจเกิดขึ้นภาพ input จะต้องได้รับการปรับปรุงสําหรับการวิเคราะห์ ขั้นตอนการประมวลผลก่อนนี้เป็นสิ่งสําคัญสําหรับความแม่นยําของ OCR และรวมถึงการดําเนินงานหลักหลายอย่าง:
เทคนิคการปรับปรุงภาพ:
- ลดเสียงรบกวน: ปล่อยตัวอักษรสแกนเนอร์จุดฝุ่นและเสียงดิจิตอลที่สามารถทําผิดพลาดในการรับรู้ตัวละคร
- การปรับความต้านทาน: เพิ่มความแตกต่างระหว่างข้อความและพื้นหลังทําให้ตัวอักษรที่กําหนดมากขึ้น
- มาตรฐานความสว่าง: ให้เงื่อนไขแสงที่สม่ําเสมอทั่วทั้งเอกสาร
- Sharpening: ปรับปรุงการกําหนดตัวอักษรด้านข้างโดยเฉพาะอย่างยิ่งสําหรับสแกนที่มีความละเอียดต่ํา
การแก้ไขทางภูมิศาสตร์:
- การตรวจจับและแก้ไขสกรู:ระบุเมื่อเอกสารจะถูกสแกนในมุมหนึ่งและหมุนพวกเขาเพื่อการสอดคล้องที่เหมาะสม
- การแก้ไขแนวโน้ม: ปรับความผิดปกติที่เกิดจากการถ่ายภาพเอกสารในมุม
- การตรวจจับขอบเขตของหน้า:ระบุพื้นที่เอกสารจริงภายในภาพสแกน
**กระบวนการไบนารี:**การแปลงรูปภาพสีเทาหรือสีลงในรูปแบบสีดําและสีขาว (ไบารี่) เป็นสิ่งสําคัญสําหรับเครื่องยนต์ OCR ส่วนใหญ่ อัลgorithms ที่ทันสมัยเช่น Method ของ Otsu หรือ Adaptive Thresholding จะกําหนดข้อ จํากัด ที่เหมาะสมสําหรับการแยกข้อความจากพื้นหลังการจัดการเงื่อนไขการสว่างที่แตกต่างกันทั่วเอกสาร
ขั้นตอนที่ 2: การวิเคราะห์การจัดเรียงและการแบ่ง
เอกสารที่ทันสมัยประกอบด้วยโครงสร้างที่ซับซ้อนที่มีคอลัมน์หลายรูปภาพตารางและบล็อกข้อความที่แตกต่างกัน ระบบ OCR จะต้องทําความเข้าใจการก่อสร้างนี้ก่อนที่จะพยายามรับรู้ตัวละคร
** การวิเคราะห์โครงสร้างเอกสาร:**
- การระบุภูมิภาค: ความแตกต่างระหว่างพื้นที่ข้อความภาพตารางและพื้นที่สีขาว
- การกําหนดคําสั่งอ่าน: กําหนด sequence logic สําหรับการประมวลผลบล็อกข้อความ
- การตรวจจับคอลัมน์: การระบุการจัดตั้งหลายกลมและกําหนดการไหลของข้อความที่เหมาะสม
การแบ่งบล็อกข้อความ:
- การแบ่งเส้น:แยกเส้นข้อความแต่ละตัวภายในขั้นตอน
- การแบ่งคํา: การระบุขอบเขตของคําและพื้นที่
- การแบ่งตัวละคร: อิสระตัวอักษรแต่ละตัวสําหรับการรับรู้ (สําคัญสําหรับวิธีการ OCRบางอย่าง)
ขั้นตอนที่ 3: การสกัดคุณสมบัติและการรับรู้ตัวละคร
นี่คือสถานที่ที่การรับรู้ข้อความจริงเกิดขึ้น ระบบ OCR ที่แตกต่างกันใช้วิธีการต่างๆในการระบุตัวอักษรจากข้อมูลภาพที่แบ่งออก
การรับรู้ตามคุณสมบัติแบบดั้งเดิม:
- คุณสมบัติทางโครงสร้าง: การวิเคราะห์รูปร่างเส้นโค้งและช่องว่าง
- คุณสมบัติสถิติ: ตรวจสอบรูปแบบการกระจาย pixel และความหนาแน่น
- Template Matching: การเปรียบเทียบตัวอักษรกับตัวอย่างที่เก็บไว้ของ fonts ที่คุ้นเคย
การเข้าถึงเครือข่ายประสาททันสมัย:
- เครือข่ายระบบประสาทแบบดั้งเดิม (CNNs): เรียนรู้คุณสมบัติที่เกี่ยวข้องโดยอัตโนมัติจากข้อมูลการฝึกอบรม
- เครือข่ายปฏิกิริยา (RNNs): การประมวลผลข้อมูลตัวละคร sequential และเข้าใจ kontext
- Models Transformer: ปรับปรุงความแม่นยํา
ขั้นตอน 4: การประมวลผลหลังและการแก้ไขข้อผิดพลาด
ผล OCR วัตถุดิบมักมีข้อผิดพลาดที่จําเป็นต้องแก้ไขผ่านเทคนิคหลังการประมวลผลอัจฉริยะ
การแก้ไขตามคําพูด:
- Spell Checking: การระบุและแนะนําการแก้ไขคําที่ไม่ถูกต้อง
- การวิเคราะห์เนื้อหา: ใช้คํารอบ ๆ เพื่อระบุคําพูดที่ถูกต้องมากที่สุด
- โมเดลภาษา: ใช้รูปแบบภาษาสถิติเพื่อปรับปรุงการรับรู้คํา
รูปแบบการเก็บรักษา:
- Layout Reconstruction: รักษารูปแบบเอกสารเดิมรวมถึง paragraphs, lists และ spacing
- ข้อมูลแหล่งข้อมูล: รักษาการออกแบบข้อความเมื่อเป็นไปได้ (Bold, italic, font sizes)
- องค์ประกอบโครงสร้าง: รักษาตารางหัวและโหมดเอกสารอื่น ๆ
วิธีการและเทคโนโลยี OCR ที่แตกต่างกัน
ระบบการจับคู่แบบจําลอง
ระบบ OCR แบบดั้งเดิมเชื่อมโยงอย่างหนักกับการจับคู่แบบจําลองเปรียบเทียบแต่ละตัวละครกับรูปแบบที่จัดเก็บไว้ล่วงหน้าของตัวอักษรและตัวเลขที่รู้จัก
** ข้อดี : *
- ความแม่นยําสูงสําหรับอักษรที่รู้จักและเอกสารที่สะอาด
- การประมวลผลอย่างรวดเร็วสําหรับชุดตัวละครที่ จํากัด
- ความน่าเชื่อถือสําหรับแบบฟอร์มและเอกสารมาตรฐาน
**ข้อ จํากัด : *
- ประสิทธิภาพที่ไม่ดีกับอักษรใหม่หรือหลากหลาย
- การต่อสู้กับคุณภาพภาพที่ลดลง
- ความยืดหยุ่นที่ จํากัด สําหรับข้อความที่เขียนด้วยมือ
การรับรู้ตามคุณสมบัติ
มีความซับซ้อนมากขึ้นกว่าการสอดคล้องแบบจําลองระบบตามลักษณะวิเคราะห์คุณสมบัติทางภูมิศาสตร์และท็อปวิทยาของตัวอักษร
คุณสมบัติหลักที่วิเคราะห์:
- องค์ประกอบโครงสร้าง: สายรัดโค้งวงจรและจุดปลาย
- คุณสมบัติพื้นที่: พื้นที่ลักษณะและความสัมพันธ์ของพวกเขา
- คุณสมบัติทางทิศทาง: คําแนะนําและคําแนะนําการโจมตี
วิธีการนี้ให้การประมวลผลที่ดีกว่าการตอบสนองตัวอย่าง แต่ยังต้องการวิศวกรรมคุณสมบัติที่ระมัดระวัง
เครือข่ายประสาทและวิธีการเรียนรู้ลึก
ระบบ OCR ของสมัยใหม่ส่วนใหญ่ใช้วิธีการเรียนรู้ลึกซึ่งจะเรียนรู้คุณสมบัติที่ดีที่สุดจากข้อมูลการฝึกอบรมโดยอัตโนมัติ
เครือข่ายระบบประสาทแบบดั้งเดิม (CNNs):
- ดีในการรับรู้รูปแบบพื้นที่ในภาพ
- เรียนรู้คุณสมบัติภาพที่เกี่ยวข้องโดยอัตโนมัติ
- การจัดการความแตกต่างของตัวอักษรและปัญหาคุณภาพภาพดีกว่าวิธีการดั้งเดิม
เครือข่ายปฏิกิริยา (RNNs) และ LSTMs:
- การประมวลผลข้อมูล sequential อย่างมีประสิทธิภาพ
- ทําความเข้าใจเนื้อหาของตัวละครภายในคํา
- โดยเฉพาะอย่างยิ่งมีประสิทธิภาพสําหรับการเขียนด้วยมือและตัวอักษรที่เกี่ยวข้อง
โครงสร้างการแปลง:
- ประสิทธิภาพขั้นสูงสําหรับการรับรู้ข้อความ
- ดีในการจัดการความสัมพันธ์ระยะยาว
- ความเข้าใจพื้นฐานสูงสําหรับการแก้ไขข้อผิดพลาด
ความแม่นยําของภาพปัจจัยที่มีผลกระทบต่อ OCR
ความต้องการในการแก้ปัญหา
คุณภาพของภาพป้อนมีผลกระทบอย่างมากต่อประสิทธิภาพของ OCR ประเภทข้อความที่แตกต่างกันต้องการความละเอียดขั้นต่ําต่าง ๆ สําหรับการรับรู้ที่ถูกต้อง
** คู่มือการแก้ปัญหาที่ดีที่สุด:**
- ข้อความพิมพ์: 300 DPI น้อยที่สุด 600 DPi ที่ดีที่สุดสําหรับอักษรขนาดเล็ก
- ข้อความที่เขียนด้วยตนเอง: 400-600 DPI สําหรับผลลัพธ์ที่ดีที่สุด
- เอกสารประวัติศาสตร์: 600+ DPI เพื่อบันทึกรายละเอียดที่ดี
ความต้านทานและเงื่อนไขแสง
ความแตกต่างที่ไม่ดีระหว่างข้อความและพื้นหลังเป็นหนึ่งในสาเหตุที่พบมากที่สุดของข้อผิดพลาด OCR
ปัจจัยสําคัญ :
- แสงสว่างแบบสม่ําเสมอ: หลีกเลี่ยงเงาและแสงที่ไม่เท่าเทียมกัน
- การเปรียบเทียบที่เพียงพอ: ให้ความแตกต่างที่ชัดเจนระหว่างข้อความและพื้นหลัง
- การพิจารณาสี: การผสมสี contrast สูงทํางานได้ดีที่สุด
หลักสูตร Skew และ Distortion
แม้ว่าปริมาณขนาดเล็กของสกรูสามารถลดความแม่นยําของ OCR โดยเฉพาะอย่างยิ่งสําหรับเอกสารที่มีการจัดระเบียบที่ซับซ้อน
** คําถามทั่วไป: *
- สแกนเนอร์ Skew: เอกสารที่ไม่ได้วางตรงบนเตียง scanner
- ความผิดปกติทางภาพ: ปัญหาที่มองเห็นเมื่อถ่ายภาพเอกสาร
- เอกสารทางกายภาพ Warping: หน้าโค้งหรือเคลือบ
เสียงและศิลปะ
ประเภทต่างๆของเสียงรบกวนอาจทําให้เกิดการรับรู้ตัวละครและต้องได้รับการแก้ไขในระหว่างการประมวลผลก่อน
** ประเภทเสียง: *
- สแกนเนอร์ Artifacts: ผง, สกรูบนแก้ว scanner
- การลดลงของเอกสาร: การหล่อที่เกี่ยวข้องกับอายุการสูญเสีย
- Artifacts การบีบอัด: JPEG Compression สามารถ Blur รอบตัวละคร
เทคนิคการประมวลผลหลังเพื่อความแม่นยําที่เพิ่มขึ้น
การแก้ไขตามคําอธิบาย
ระบบ OCR ที่ทันสมัยใช้คําพูดที่ซับซ้อนและ algorithms การแก้ไขเพื่อปรับปรุงความแม่นยํา
การแก้ไขหลายระดับ:
- ระดับบุคลิกภาพ: การแก้ไขตัวอักษรส่วนบุคคลขึ้นอยู่กับ kontext
- Word Level: เปลี่ยนคําทั้งหมดโดยใช้คําพูด
- ระดับการอ้างอิง: การแก้ไขการระมัดระวังพื้นฐานโดยใช้การวิเคราะห์ n-gram
รูปแบบภาษาและการวิเคราะห์พื้นฐาน
ระบบ OCR แบบขั้นสูงบูรณาการเทคนิคการประมวลผลภาษาธรรมชาติเพื่อเข้าใจและแก้ไขข้อผิดพลาดในการรับรู้
รูปแบบภาษาสถิติ:
- ** N-Gram Models**: การคาดการณ์ตัวละครที่อาจเกิดขึ้นและการติดตามคํา
- โมเดลภาษาประสาท: ใช้การเรียนรู้ลึกเพื่อความเข้าใจพื้นฐาน
- รูปแบบเฉพาะโดเมน: การฝึกอบรมเกี่ยวกับคําพูดเฉพาะสําหรับอุตสาหกรรมเฉพาะ
การรักษารูปแบบและ layout
การรักษาโครงสร้างเอกสารเดิมเป็นสิ่งสําคัญสําหรับแอพพลิเคชัน OCR ที่ปฏิบัติ
เทคนิคการจัดเก็บ:
- ** การ์ตูนที่กําหนดเอง**: รักษาความสัมพันธ์ทางพื้นที่ระหว่างองค์ประกอบข้อความ
- การยอมรับสไตล์: การระบุและรักษาคุณสมบัติ font
- การวิเคราะห์โครงสร้าง: การระบุหัวข้อรายการตารางและองค์ประกอบการรูปแบบอื่น ๆ
ขึ้นอยู่กับกฎ vs. ระบบการเรียนรู้เครื่อง OCR
ระบบตามกฎ
ระบบ OCR แบบดั้งเดิมเชื่อมโยงอย่างหนักกับกฎที่ทําด้วยมือและ heuristics สําหรับการรับรู้ตัวละครและการแก้ไขข้อผิดพลาด
** คุณสมบัติ : *
- คํานวณ: การส่งเข้าเดียวกันมักจะส่งออกเดียวกัน
- สามารถตีความได้: เห็นได้ง่ายว่าทําไมการตัดสินใจที่เฉพาะเจาะจงถูก اتخاذ
- การปรับตัว จํากัด:ประสิทธิภาพขึ้นอยู่กับคุณภาพของกฎที่กําหนดไว้ล่วงหน้า
** ข้อดี : *
- การกระทําที่คาดการณ์ได้
- การประมวลผลอย่างรวดเร็วสําหรับสถานการณ์ที่กําหนดเอง
- ง่ายต่อการลบและแก้ไข
**ข้อเสีย : *
- ความสามารถในการจัดการการเปลี่ยนแปลงที่ จํากัด
- ต้องการการสร้างกฎคู่มือที่กว้างขวาง
- ผลลัพธ์ที่ไม่พึงประสงค์ในการเข้าสู่ระบบที่ไม่คาดหวัง
ระบบการเรียนรู้เครื่อง
ระบบ OCR ของสมัยใหม่ใช้อัลกอริทึมการเรียนรู้เครื่องที่เรียนรู้จากข้อมูลการฝึกอบรมแทนที่จะขึ้นอยู่กับกฎที่ชัดเจน
** ข้อดีหลัก: *
- ปรับได้: สามารถเรียนรู้จากข้อมูลใหม่และปรับปรุงได้ตลอดเวลา
- การประมวลผล: การจัดการที่ดีกว่าของอักษรรูปแบบและเงื่อนไขที่ไม่ได้เห็นในระหว่างการพัฒนา
- การเรียนรู้คุณสมบัติอัตโนมัติ: โมเดลเรียนรู้ลึกจะค้นพบคุณลักษณะที่ดีที่สุดโดยอัจฉริยะ
ข้อกําหนดการฝึกอบรม:
- ชุดข้อมูลขนาดใหญ่ของภาพข้อความที่บันทึก
- ข้อมูลการฝึกอบรมที่แตกต่างกันครอบคลุมตัวอักษรคุณภาพและเงื่อนไขต่างๆ
- ความสามารถในการเรียนรู้อย่างต่อเนื่องเพื่อการปรับปรุงอย่างถาวร
การใช้งาน OCR ในโลกจริงและผลกระทบทางธุรกิจ
การเปลี่ยนแปลงดิจิตอลในองค์กร
เทคโนโลยี OCR ได้กลายเป็นจุดมุ่งเน้นขององค์กรการเปลี่ยนแปลงดิจิตอลทั่วอุตสาหกรรม
**ระบบการจัดการเอกสาร:**ผู้ประกอบการใช้ OCR เพื่อแปลงไฟล์เอกสารกระดาษขนาดใหญ่เป็นตู้เก็บข้อมูลดิจิตอลที่สามารถค้นหาได้เพื่อปรับปรุงการเข้าถึงข้อมูลอย่างมากและลดค่าใช้จ่ายในการจัดเก็บ
**อัตโนมัติการประมวลผลบัญชี:**สํานักงานทางการเงินใช้ OCR เพื่อ استخراجข้อมูลจากบัญชีคําสั่งซื้อและรายได้โดยอัตโนมัติลดการเข้าข้อมูลด้วยตนเองถึง 90% และลดความผิดพลาดของมนุษย์
การประยุกต์ใช้อุตสาหกรรมสุขภาพ
**การดิจิตอลบันทึกทางการแพทย์:**โรงพยาบาลและคลินิกใช้ OCR เพื่อแปลงบันทึกผู้ป่วยที่เขียนด้วยมือใบสั่งยาและแบบฟอร์มทางการแพทย์เป็นจดหมายสุขภาพอิเล็กทรอนิกส์ (EHRs) เพื่อปรับปรุงการประสานงานการดูแลของผู้ป่วยและการปฏิบัติตามกฎระเบียบ
**การประมวลผลข้อร้องเรียนการประกันภัย:**บริษัท การประกันภัยใช้ OCR เพื่อ استخراجข้อมูลโดยอัตโนมัติจากแบบฟอร์มการร้องเรียนรายงานทางการแพทย์และการสนับสนุนเอกสารที่เร่งเวลาในการประมวลผลร้องขอจากสัปดาห์ถึงวัน
การประยุกต์ใช้กฎหมายและปฏิบัติตาม
** การวิเคราะห์ข้อตกลง:**บริษัท กฎหมายใช้ OCR เพื่อดิจิทัลและวิเคราะห์ปริมาณที่ใหญ่ของสัญญาช่วยให้การค้นหาคําหลักอย่างรวดเร็วและการระบุข้อกําหนดผ่านหลายพันเอกสาร
**การปฏิบัติตามกฎระเบียบ:**องค์กรทางการเงินใช้ OCR เพื่อประมวลผลและวิเคราะห์เอกสารการควบคุมเพื่อให้แน่ใจว่าการปฏิบัติตามกฎระเบียบที่เปลี่ยนแปลงในขณะที่ลดเวลาการตรวจสอบด้วยตนเอง
การเปลี่ยนแปลงด้านการศึกษา
** การดิจิทัลของห้องสมุด:**สถาบันวิชาการใช้ OCR เพื่อแปลงข้อความประวัติศาสตร์กระดาษวิจัยและหนังสือที่หายากไปเป็นรูปแบบดิจิตอลที่สามารถค้นหาได้ حفظความรู้ในขณะที่ปรับปรุงการเข้าถึงได้
**ระบบเกรดอัตโนมัติ:**สถาบันการศึกษานําไปใช้ OCR สําหรับการประมวลผลคําตอบการสอบด้วยตนเองและคําสั่งเพื่อให้การจัดอันดับที่รวดเร็วและการ αξιολόγησηที่สม่ําเสมอมากขึ้น
การพัฒนาในอนาคตและแนวโน้มที่เกิดขึ้น
การบูรณาการอัจฉริยะ Artificial Intelligence
การบูรณาการเทคโนโลยีอัจฉริยะขั้นสูงจะกระตุ้นความสามารถของ OCR มากกว่าการรับรู้ข้อความที่เรียบง่ายไปสู่การเข้าใจเอกสารที่ครอบคลุม
**การประมวลผลเอกสารอัจฉริยะ:**ระบบที่ทันสมัยเชื่อมต่อ OCR กับการประมวลผลภาษาตามธรรมชาติเพื่อความเข้าใจเกี่ยวกับเนื้อหาเอกสารการสกัดข้อมูลที่มีความหมายและการตัดสินใจที่ชาญฉลาดเกี่ยวกับการจัดอันดับและเส้นทางข้อมูล
**การเรียนรู้หลายแบบ:**ระบบที่ปรากฏรวมข้อมูลภาพข้อความและพื้นฐานเพื่อให้บรรลุการเข้าใจเอกสารในระดับมนุษย์โดยเฉพาะอย่างยิ่งสําหรับรูปแบบที่ซับซ้อนและเนื้อหาที่โครงสร้าง
Edge Computing และ Mobile OCR
**การประมวลผลบนอุปกรณ์:**การใช้งาน OCR มือถือมักจะประมวลผลการรับรู้ข้อความในท้องถิ่นบนอุปกรณ์ลดความช้าและปรับปรุงความเป็นส่วนตัวในขณะที่รักษาความแม่นยําสูง
**แอปพลิเคชันในเวลาจริง:**ความสามารถ OCR Live ในกล้องมือถือช่วยให้การแปลทันทีคุณสมบัติการเข้าถึงสําหรับผู้ใช้ที่มีความเสี่ยงทางภาพและแอปพลิเคชันความเป็นจริงที่เพิ่มขึ้น
ข้อสรุป
เทคโนโลยี OCR ได้พัฒนาจากระบบการตอบสนองแบบจําลองที่เรียบง่ายไปสู่แพลตฟอร์ม AI ที่ซับซ้อนซึ่งสามารถจัดการประเภทเอกสารที่แตกต่างกันด้วยความแม่นยําที่โดดเด่น การแปลงจากภาพสแกนไปยังข้อความที่สามารถแก้ไขได้รวมถึงการประมวลผลก่อนที่สมบูรณ์แบบการรับรู้ตัวละครอัจฉริยะและเทคนิคการติดตามขั้นสูงที่ทํางานร่วมกันเพื่อให้ได้ผลลัพธ์ที่มักจะเกินระดับความถูกต้องของมนุษย์
การเข้าใจท่อ OCR ทั้งหมด - จากการประมวลผลภาพก่อนผ่านการรับรู้ตัวละครไปจนถึงการแก้ไขข้อผิดพลาด - ให้ความเข้าใจที่มีมูลค่าเกี่ยวกับเหตุผลว่าระบบ OCC ของสมัยใหม่มีประสิทธิภาพมากและวิธีการปรับปรุงอย่างต่อเนื่อง ในฐานะที่เป็นธุรกิจขึ้นอยู่กับนวัตกรรมการแปลงดิจิตอลเทคโนโลยี OCD ยังคงเป็นองค์ประกอบสําคัญในการแปลงเอกสารพันธุกรรมและอนุญาตให้กระแสงานอัตโนมัติที่มีประสิทธิภาพ
อนาคตของ OCR ตั้งอยู่ในการรวมตัวของ AI ลึกขึ้นการเข้าใจพื้นฐานที่ดีขึ้นและความสามารถในการประมวลผลเอกสารที่ชาญฉลาดมากขึ้นซึ่งเกินไปจากการ استخراجข้อความที่เรียบง่ายเพื่อให้ความเข้าใจที่มีความหมายและการตัดสินใจอัตโนมัติองค์กรที่เข้าใจและใช้ประโยชน์จากหลักฐานเหล่านี้จะได้รับตําแหน่งที่ดีกว่าเพื่อเพิ่มผลประโยชน์จากการลงทุนในการแปลงดิจิตอล