วิเคราะห์รูปภาพ สายตาของ AI

การใช้พลังของการเรียนรู้ของAI เพื่อระบุหรือวิเคราะห์ข้อมูลภาพ เช่น ภาพถ่าย รูปภาพ หรือภาพวาด ที่เรียกว่าการรู้จำภาพ หากเราจินตนาการว่า AI เป็นอัตลักษณ์ การจดจำภาพอาจเป็นดวงตาของ AI ซึ่งไม่เป็นความจริงเพราะนั่นจะเป็นเซ็นเซอร์ แต่เพื่อให้เข้าใจการจดจำภาพด้วยการเรียนรู้ด้วยเครื่อง เราจะจินตนาการผ่านเลนส์ของดวงตาของ AI

ตามเว็บไซต์ Visio [1] การจดจำรูปภาพ AI ใช้เพื่อระบุวัตถุที่น่าสนใจในภาพที่กำหนด และสามารถระบุได้ว่าพวกเขาอยู่ในหมวดหมู่ใด เช่นเดียวกับ AI การจดจำภาพจำเป็นต้องมีชุดข้อมูลเพื่อฝึกฝนก่อนที่จะสามารถระบุวัตถุเฉพาะได้ ต่างจากมนุษย์ตรงที่เราสามารถสังเกตเห็นวัตถุที่แตกต่างกันและสิ่งที่เกี่ยวข้องกับมันได้ AI มีเวลาที่ยากลำบากในการรู้ว่าโปรแกรมเมอร์ต้องการให้ค้นหาและแยกแต่ละวัตถุภายในภาพอย่างไร การจดจำภาพเป็นส่วนหนึ่งของการวิจัยการมองเห็นด้วยคอมพิวเตอร์อย่างต่อเนื่อง ซึ่งมักจะรวมถึงชุดของงาน เช่น การตรวจจับวัตถุ การระบุภาพ และการจัดประเภทภาพ การจดจำภาพในปัจจุบันโดย AI ใช้เทคโนโลยีการเรียนรู้เชิงลึกซึ่งให้ประสิทธิภาพที่ดีที่สุดด้วยความเร็วและความยืดหยุ่นในการประมวลผลที่รวดเร็ว

รับรู้วิสัยทัศน์

คำว่า Image Recognition และ Image Detection อาจใช้ในลักษณะเดียวกัน และผู้คนอาจคิดว่าทั้งสองใช้อัลกอริธึมคอมพิวเตอร์ประเภทเดียวกัน ใครก็ตามในทางเทคนิคพวกเขาจะแตกต่างกัน ในการอธิบาย จำเป็นต้องมีการอธิบายและแยกแยะการรู้จำภาพ AI การตรวจจับภาพ การตรวจจับภาพใช้เพื่อแยกแยะวัตถุจากวัตถุอื่นเพื่อค้นหาว่ามีกี่วัตถุในภาพถ่าย ตัวอย่างเช่น การตรวจจับภาพใช้เพื่อนับใบหน้าของคนในภาพถ่าย ในทางกลับกัน การรู้จำภาพสามารถระบุวัตถุที่น่าสนใจและสามารถจำแนกชั้นเรียนหรือหมวดหมู่ได้ การใช้ AI สำหรับการจดจำภาพคือการฝึก AI (การเรียนรู้ของเครื่อง) โดยใช้อัลกอริทึมเพื่อศึกษาชุดข้อมูลที่กำหนด AI จะตรวจจับข้อมูลที่ซ่อนอยู่ในชุดข้อมูลและหวังว่าจะทำตามคำแนะนำของโปรแกรมเมอร์ การเรียนรู้เชิงลึกที่กล่าวถึงก่อนหน้านี้คือการใช้เลเยอร์ที่ซ่อนอยู่หลายชั้นในแบบจำลอง ดังนั้น AI จึงสามารถจดจำภาพได้ดีขึ้น การเรียนรู้เชิงลึกทำให้มนุษย์ต้องติดป้ายกำกับข้อมูลด้วยตนเอง ซึ่งเป็นตัวอย่างที่ดีและไม่ดี กระบวนการนี้เรียกว่า “การเรียนรู้ภายใต้การดูแล”

ขั้นตอนแรกของการสร้างการจดจำภาพคือชุดข้อมูลการฝึก ซึ่งเป็นภาพที่ป้อนเข้า เช่น รูปภาพ รูปภาพ วิดีโอ ฯลฯ อัลกอริทึมต้องใช้ข้อมูลอินพุตเหล่านี้เพื่อทำความเข้าใจและรับรู้ว่าแต่ละหมวดหมู่หรือ ดูชั้นเรียน จากนั้นชุดข้อมูลจะถูกแทรกลงในอัลกอริทึมโครงข่ายประสาทเทียม ซึ่งเป็นส่วนการเรียนรู้ของเครื่องหรือการเรียนรู้เชิงลึก ซึ่งช่วยให้โมเดลสามารถระบุคลาสเฉพาะได้ มีการใช้เฟรมเวิร์กหลายแบบอย่างกว้างขวางสำหรับการจดจำภาพ สุดท้าย โมเดลที่ได้รับการฝึกจะได้รับการทดสอบด้วยรูปภาพที่ไม่ได้เป็นส่วนหนึ่งของชุดข้อมูลการฝึก ขั้นตอนสุดท้ายนี้ทำให้แน่ใจถึงความสามารถในการใช้งาน ประสิทธิภาพ และความถูกต้องของแบบจำลอง ตามทฤษฎีแล้ว หากโมเดลได้รับการฝึกอบรมด้วยชุดข้อมูลของผู้ที่มีบุฟเฟ่ต์บาร์บีคิว อย่างน้อยก็ควรจะสามารถแยกแยะคน ช้อนส้อม และอาหารบนโต๊ะได้

ให้ภูมิทัศน์นำยีราฟออกมา

ดังที่กล่าวไว้ในบทความ AI ทั่วไป การจดจำภาพยังได้รับผลกระทบจากชุดข้อมูลที่ได้รับการฝึกอบรมอีกด้วย ปรากฏการณ์ประหลาดที่มี AI ด้านการมองเห็น กำลังระบุบางสิ่งที่ไม่มีอยู่ในภาพ นั่นคือ ยีราฟ เมื่อใช้วิสัยทัศน์ AI เพื่อระบุวัตถุด้วยทุ่งโล่งและต้นไม้ บางครั้ง AI จะแท็กยีราฟแม้ว่าจะไม่มีสัตว์อยู่ในภาพถ่ายก็ตาม เหตุผลก็คือปกติแล้วภาพประเภทนี้มักถ่ายพร้อมกับสัตว์ และผู้คนมักถ่ายรูปยีราฟมากกว่าสัตว์อื่น ดังนั้นเครื่องจึงคิดว่ายีราฟเป็นเรื่องธรรมดา จึงเปรียบเทียบทุ่งโล่งกับยีราฟ

อีกตัวอย่างแปลก ๆ ที่ AI มองเห็นคือการจดจำภาพที่ใช้ในการระบุปลา AI มีช่วงเวลาที่ยากลำบากในการระบุปลาในน้ำมากกว่าปลาที่ชาวประมงจับได้ เหตุผลเป็นไปได้เพราะข้อมูลที่ฝึกมาส่วนใหญ่เป็นปลาที่มนุษย์จับได้ อีกครั้งที่ AI ตรวจจับปลาในภาพ แต่ในรหัสนั้นใช้เรือเป็นข้อมูลอ้างอิง

สวมหน้ากากหรือออกไปข้างนอก

แม้จะมีความแปลกประหลาดของ AI ที่บางครั้งทำให้ผู้สร้างประหลาดใจ แต่ก็มีการใช้งานในแอปพลิเคชันที่กว้างขวางและช่วยมนุษย์ในงานที่กำหนดซ้ำ ๆ ตัวอย่างหนึ่งที่ผู้เขียนพบเป็นการส่วนตัวคือหุ่นยนต์ตรวจจับหน้ากาก สิ่งนี้เกิดขึ้นตั้งแต่ปี 2020 ห้างสรรพสินค้าแห่งหนึ่งในกรุงเทพฯ ที่มีผู้ให้บริการเครือข่ายติดตั้งหุ่นยนต์เคลื่อนที่ที่สามารถจดจำลูกค้าที่มีหน้ากากและสัญญาณเตือนเมื่อไม่เห็นลูกค้ารายหนึ่ง

อีกตัวอย่างหนึ่งคือการวิเคราะห์ใบหน้า AI จะได้รับฟีดวิดีโอของกล้องดิจิตอลหรือเว็บแคม จากนั้นการตรวจจับใบหน้าที่ทำได้ การจดจำเพศ การตรวจจับรอยยิ้ม และการประมาณอายุ ตัวอย่างเป็นกรณีศึกษาในบทความ AI ทั่วไป ซึ่ง Google ใช้ AI เพื่อกำหนดอารมณ์ของผู้คนโดยการแสดงออกทางสีหน้าเพื่อช่วยเหลือผู้ใช้ที่มีปัญหาในการโต้ตอบทางสังคมในคิวทางสังคม

นักวิจัย โปรแกรมเมอร์ และนักพัฒนากำลังทำงานกับการจดจำภาพในแอพพลิเคชั่นที่หลากหลาย และพยายามปรับปรุงฟังก์ชันการทำงานและความแม่นยำ แอปพลิเคชั่นการจดจำภาพโดยทั่วไปคือ

• การตรวจจับข้อบกพร่องและการวิเคราะห์เชิงคาดการณ์ เช่น ชิ้นส่วนที่ชำรุดบนกังหันลมหรือการรั่วไหลของท่อ

• การตรวจจับการบุกรุกอัตโนมัติสำหรับระบบเฝ้าระวัง

• การวิเคราะห์ฝูงชนในเมืองอัจฉริยะ

• การตรวจจับอาวุธ เช่น มีดหรือปืน