Abstract:
ในปัจจุบัน มีจำนวนรูปภาพอาหารมากมายที่ถูกอัพโหลดผ่านเครือข่ายสังคม โดยรูปภาพส่วนหนึ่งไม่ได้รับการระบุป้ายชื่ออาหาร การใช้แอปพลิเคชันสำหรับการจำแนกประเภทรูปภาพของอาหาร สามารถช่วยระบุป้ายชื่อ และจัดจำแนกประเภทของรูปภาพอาหารเหล่านั้นได้ ปัญหาของงานจำแนกประเภทของรูปภาพอาหาร จัดเป็นงานที่ค่อนข้างมีความซับซ้อน เนื่องจากจำนวนของประเภทอาหารมีมากกว่าหนึ่งร้อยประเภท และอาหารบางประเภทยังมีลักษณะที่แตกต่างกันเล็กน้อย ไม่ว่าจะเป็นประเภทของส่วนผสม หรือลักษณะการจัดวางจาน ซึ่งปัญหาเหล่านี้นำไปสู่งานที่เรียกว่า งานจำแนกประเภทรูปภาพแบบละเอียด (Fine-grained Image Classification) ในปัจจุบันแบบจำลองนิวรอลเน็ตเวิร์กแบบคอนโวลูชันเชิงเส้นคู่ (Bilinear Convolutional Neural Networks หรือ B-CNN) ถูกนำมาใช้ในการจำแนกประเภทของรูปภาพอาหาร เนื่องจากแบบจำลองนี้มีความแม่นยำในการจำแนกประเภทของรูปภาพสูง และสามารถสกัดลักษณะของรูปภาพออกมาอย่างหลากหลาย เพื่อโฟกัสรายละเอียดของอาหารในแต่ละประเภท แต่เนื่องจากคุณลักษณะของรูปภาพที่ถูกสกัดมานั้น บางลักษณะอาจจะไม่ได้มีความสำคัญต่อรูปภาพนั้น ๆ ด้วยเหตุผลดังกล่าว งานวิจัยนี้จึงได้นำเสนอกลไกจุดสนใจ (Attention Mechanism) มาสกัดลักษณะที่จำเพาะของรูปภาพอาหารในแต่ละประเภท อีกทั้งงานวิจัยนี้เลือกคอนโวลูชันเน็ตเวิร์กที่มีประสิทธิภาพในการจำแนกประเภทของรูปภาพดีกว่าคอนโวลูชันเน็ตเวิร์กแบบอื่น ๆ ในปัจจุบัน คือ อินเซ็บชันเวอร์ชันสาม และ อินเซ็บชันเรสเน็ตเวอร์ชันสอง (Inception-Resnet-v2 หรือ In-res-v2) มาเป็นตัวสกัดลักษณะของรูปภาพ โดยงานวิจัยนี้ได้ทำการทดลองกับชุดข้อมูลเชิงรูปภาพ จาก Wongnai ซึ่งเป็นแอปพลิเคชันสำหรับการอัปโหลดรูปภาพอาหาร โดยผลการทดลองพบว่าแบบจำลองที่ได้นำเสนอ มีประสิทธิภาพในการจำแนกประเภทของรูปภาพอาหารได้อย่างถูกต้องแม่นยำมากขึ้นเมื่อเปรียบเทียบกับแบบจำลองอื่น ๆ