DSpace Repository

กลไกจุดสนใจแบบเน็ตเวิร์กละเอียดสำหรับการจำแนกประเภทของรูปภาพอาหาร

Show simple item record

dc.contributor.advisor พีรพล เวทีกูล
dc.contributor.author วศิณี นุชศิริ
dc.contributor.other จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
dc.date.accessioned 2020-04-05T09:19:37Z
dc.date.available 2020-04-05T09:19:37Z
dc.date.issued 2562
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/65137
dc.description วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2562
dc.description.abstract ในปัจจุบัน มีจำนวนรูปภาพอาหารมากมายที่ถูกอัพโหลดผ่านเครือข่ายสังคม โดยรูปภาพส่วนหนึ่งไม่ได้รับการระบุป้ายชื่ออาหาร การใช้แอปพลิเคชันสำหรับการจำแนกประเภทรูปภาพของอาหาร สามารถช่วยระบุป้ายชื่อ และจัดจำแนกประเภทของรูปภาพอาหารเหล่านั้นได้  ปัญหาของงานจำแนกประเภทของรูปภาพอาหาร จัดเป็นงานที่ค่อนข้างมีความซับซ้อน เนื่องจากจำนวนของประเภทอาหารมีมากกว่าหนึ่งร้อยประเภท และอาหารบางประเภทยังมีลักษณะที่แตกต่างกันเล็กน้อย ไม่ว่าจะเป็นประเภทของส่วนผสม หรือลักษณะการจัดวางจาน ซึ่งปัญหาเหล่านี้นำไปสู่งานที่เรียกว่า งานจำแนกประเภทรูปภาพแบบละเอียด (Fine-grained Image Classification) ในปัจจุบันแบบจำลองนิวรอลเน็ตเวิร์กแบบคอนโวลูชันเชิงเส้นคู่ (Bilinear Convolutional Neural Networks หรือ B-CNN) ถูกนำมาใช้ในการจำแนกประเภทของรูปภาพอาหาร เนื่องจากแบบจำลองนี้มีความแม่นยำในการจำแนกประเภทของรูปภาพสูง และสามารถสกัดลักษณะของรูปภาพออกมาอย่างหลากหลาย เพื่อโฟกัสรายละเอียดของอาหารในแต่ละประเภท  แต่เนื่องจากคุณลักษณะของรูปภาพที่ถูกสกัดมานั้น บางลักษณะอาจจะไม่ได้มีความสำคัญต่อรูปภาพนั้น ๆ ด้วยเหตุผลดังกล่าว งานวิจัยนี้จึงได้นำเสนอกลไกจุดสนใจ (Attention Mechanism) มาสกัดลักษณะที่จำเพาะของรูปภาพอาหารในแต่ละประเภท อีกทั้งงานวิจัยนี้เลือกคอนโวลูชันเน็ตเวิร์กที่มีประสิทธิภาพในการจำแนกประเภทของรูปภาพดีกว่าคอนโวลูชันเน็ตเวิร์กแบบอื่น ๆ ในปัจจุบัน คือ อินเซ็บชันเวอร์ชันสาม และ อินเซ็บชันเรสเน็ตเวอร์ชันสอง (Inception-Resnet-v2 หรือ In-res-v2) มาเป็นตัวสกัดลักษณะของรูปภาพ โดยงานวิจัยนี้ได้ทำการทดลองกับชุดข้อมูลเชิงรูปภาพ จาก Wongnai ซึ่งเป็นแอปพลิเคชันสำหรับการอัปโหลดรูปภาพอาหาร โดยผลการทดลองพบว่าแบบจำลองที่ได้นำเสนอ มีประสิทธิภาพในการจำแนกประเภทของรูปภาพอาหารได้อย่างถูกต้องแม่นยำมากขึ้นเมื่อเปรียบเทียบกับแบบจำลองอื่น ๆ
dc.description.abstractalternative Nowadays, many food images are posted on various social network platforms without identification labels. An automatic food categorization application would greatly help to identify and classify food categories. Food categorization is a complex problem since the number of category types can be more than one hundred.  Many kinds of food are similar with only subtle differences in taste and presentation and this can lead to a problem called “fine-grained issue”. Recently, a bilinear model was employed which showed good accuracy and generated excessive features to capture details among different food categories, albeit with limited performance. Diverse food categories require disparate sets of features. Here, an attention mechanism was applied to capture suitable features and specifically identify each food category. Furthermore, the performance of a bilinear backbone was also enhanced by applying Inception in correlation with Inception-ResNet-v2 and Inception-v3 networks. The experiment was conducted on the Wongnai dataset containing various images that were separated into 83 classes. Results showed that our attentional model outperformed the traditional bilinear model. 
dc.language.iso th
dc.publisher จุฬาลงกรณ์มหาวิทยาลัย
dc.relation.uri http://doi.org/10.58837/CHULA.THE.2019.1139
dc.rights จุฬาลงกรณ์มหาวิทยาลัย
dc.subject.classification Computer Science
dc.title กลไกจุดสนใจแบบเน็ตเวิร์กละเอียดสำหรับการจำแนกประเภทของรูปภาพอาหาร
dc.title.alternative Attentional fine-grained network for food image categorization
dc.type Thesis
dc.degree.name วิทยาศาสตรมหาบัณฑิต
dc.degree.level ปริญญาโท
dc.degree.discipline วิทยาศาสตร์คอมพิวเตอร์
dc.degree.grantor จุฬาลงกรณ์มหาวิทยาลัย
dc.email.advisor Peerapon.V@Chula.ac.th
dc.identifier.DOI 10.58837/CHULA.THE.2019.1139


Files in this item

This item appears in the following Collection(s)

Show simple item record