Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/80083
Title: | แบบจำลองการเรียนรู้เชิงลึกสำหรับการจำแนกประเภทภาพแบบละเอียด |
Other Titles: | Deep learning model for fine-grained visual classification |
Authors: | สรนันท์ พยัตศุภร |
Advisors: | บุญเสริม กิจศิริกุล |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Issue Date: | 2564 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | การจำแนกประเภทภาพแบบละเอียดเป็นปัญหาการจำแนกประเภทภาพที่อยู่ในหมวดหมู่หลักเดียวกัน เช่น ชนิดของนก, รุ่นของรถยนต์และรุ่นของเครื่องบิน โดยปัญหาหลักของการจำแนกประเภทภาพแบบละเอียดคือมีความผันผวนภายในประเภทและความเหมือนระหว่างประเภทสูง ทำให้งานวิจัยส่วนใหญ่มุ่งเน้นไปที่การระบุตำแหน่งของวัตถุหรือชิ้นส่วนสำคัญของภาพด้วยการออกแบบโครงสร้างแบบจำลองที่มีความซับซ้อนเพื่อแก้ปัญหาดังกล่าว ในงานวิจัยนี้ได้นำเสนอวิธีการเพิ่มประสิทธิภาพของความแม่นยำในการจำแนกประเภทซึ่งประกอบด้วยแบบจำลองสองระดับที่ทำหน้าที่แยกกันในการระบุตำแหน่งและจำแนกประเภท โดยการระบุตำแหน่งวัตถุทำหน้าที่หาพื้นที่ในรูปภาพที่มีวัตถุอยู่ด้วยสมมติฐานพื้นที่ต่อเนื่องที่มีขนาดใหญ่ที่สุดบนการรวมของผังฟีเจอร์ ซึ่งสกัดมาจากหลังจากคอนโวลูชันนิวรอลเน็ตเวิร์ค หลังจากนั้นในขั้นตอนการจำแนกประเภท ได้ปรับปรุงฟังก์ชันสูญเสียค่าสูงสุดอย่างอ่อนด้วยการเพิ่มมาจินเชิงมุมปรับค่าได้ในค่ามุมระหว่างฟีเจอร์เวกเตอร์และเวกเตอร์ศูนย์กลางประจำแต่ละประเภทในระหว่างการฝึกสอนแบบจำลอง วิธีการในงานวิจัยนี้สามารถฝึกสอนแบบจำลองได้แบบเอ็นทูเอ็นโดยไม่ต้องใช้กล่องขอบเขตในการฝึกสอนเพิ่มเติม ทั้งนี้ผลการทดลองแสดงให้เห็นว่า เทคนิคที่งานวิจัยนี้นำมาใช้มีประสิทธฺภาพที่ดีบนชุดข้อมูลสามชุดที่มีการใช้อย่างกว้างขวางในการทดลองเกี่ยวกับการจำประแนกประเภทภาพแบบละเอียด |
Other Abstract: | Fine-grained visual classification (FGVC) is image categorization task belonging to multiple sub-categories within a same category. It is a challenge task due to high intra-class variance and inter-class similarity. Most exiting methods pay attention to capturing discriminative semantic parts by generate complex model structure. In this research, we propose new methods for improve the classification performance called Efficient Image Embedding, which is integration of two steps model as a localization-classification sub-network, which included localization approach and loss function. The localization approach is used to identify the object region from fine-grained image using concept of the largest component of the feature channel aggregation in an unsupervised fashion. Then classification sub-network following with the loss function, which enhance the discriminative power of the softmax loss by added adaptive penalize to the ground-truth of image in the training state. Our approach can be trained in an end-to-end manner, without the need for any bounding-box/part annotations. Experiment results show our Efficient Image Embedding when implement with base deep convolutional neural architecture can achieve competitive performance on three fine-grained classification datasets. |
Description: | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2564 |
Degree Name: | วิศวกรรมศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิศวกรรมคอมพิวเตอร์ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/80083 |
URI: | http://doi.org/10.58837/CHULA.THE.2021.955 |
metadata.dc.identifier.DOI: | 10.58837/CHULA.THE.2021.955 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
6272088521.pdf | 2.73 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.