DSpace  
 

CUIR at Chulalongkorn University >
Faculty and Institute >
Faculty of Engineering - Eng >
Eng - Theses >

Please use this identifier to cite or link to this item: http://cuir.car.chula.ac.th/handle/123456789/52290

Title: การประยุกต์ใช้ซัพพอร์ตเวคเตอร์แมชชีนแบบหนึ่งต่อหนึ่งบนข้อมูลแบบหลายฉลากโดยใช้สปาร์ค
Other Titles: Application of One-Versus-One Support Vector Machines to Classify Multi-Label Datasets Using Spark
Authors: สุทธิพงษ์ แดงด้วง
Advisor: พีรพล เวทีกูล
Advisor's Email: Peerapon.V@chula.ac.th,peerapon.v@chula.ac.th
Issue Date: 2559
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: การจำแนกข้อมูลแบบหลายฉลาก เป็นวิธีการที่มีการใช้ความรู้ที่มีอยู่ก่อนหน้าในการจำแนกข้อมูล โดยในหนึ่งตัวอย่างนั้นสามารถปรากฏได้ในหลายกลุ่มข้อมูล ในกรณีของวิธีซัพพอร์ตเวคเตอร์แมชชีน วิธีการจำแนกแบบหนึ่งต่อทั้งหมดนั้นเป็นที่นิยมอย่างมากในการแก้ปัญหา อย่างไรก็ตาม วิธีการนี้มีข้อจำกัดในเรื่องของความแม่นยำในการทำนาย เพราะวิธีการนี้มักจะเกิดปัญหาเรื่องความไม่สมดุลของข้อมูลเสมอ วิธีจำแนกแบบหนึ่งต่อหนึ่งกำลังเป็นที่น่าสนใจเนื่องมาจากมีงานวิจัยจำนวนน้อยที่ได้นำเอาวิธีนี้ประยุกต์ใช้งานในงานด้านการจำแนกแบบหลายฉลาก แม้ว่าวิธีนี้จะได้รับการพิสูจน์ว่ามีประสิทธิภาพในการจำแนกมากกว่าวิธีหนึ่งต่อทั้งหมดในงานด้านการจำแนกแบบหลายประเภท อย่างไรก็ตาม วิธีนี้จำเป็นต้องใช้ระยะเวลาในการประมวลผลเป็นอย่างมาก เมื่อทำการทดลองกับข้อมูลที่มีจำนวนของกลุ่มข้อมูลเป็นจำนวนมาก งานวิจัยชิ้นนี้ได้เสนอวิธีการที่ใช้ในการแก้ปัญหางานด้านการจำแนกแบบหลายฉลากด้วยการประยุกต์ใช้งานวิธีการจำแนกแบบหนึ่งต่อหนึ่ง ซึ่งได้ทำการแก้ไขปัญหาความไม่สมดุลของข้อมูลที่เกิดขึ้นด้วยวิธีอันเดอร์แซมพลิ่ง และทำการประยุกต์ใช้งานระบบประมวลผลแบบกระจายสปาร์คด้วยวิธีการแบ่งงานออกเป็นหลาย ๆ ส่วนและทำการกระจายงานเพื่อให้งานแต่ละส่วนทำงานพร้อมกัน ซึ่งระบบนี้สามารถเพิ่มความเร็วในการประมวลผลให้กับวิธีซัพพอร์ตเวคเตอร์แมชชีนแบบหนึ่งต่อหนึ่ง ในขณะที่ยังสามารถคงประสิทธิภาพในการจำแนกข้อมูลไว้ได้แม้ว่าจะใช้งานร่วมกับชุดข้อมูลที่มีกลุ่มข้อมูลจำนวนมากก็ตาม งานวิจัยนี้ได้ทำการทดลองกับข้อมูลแบบหลายฉลากพื้นฐาน 6 ชุดข้อมูล ซึ่งผลของการทดลองนั้นแสดงให้เห็นว่าระบบที่ผู้วิจัยเสนอนั้นสามารถลดระยะเวลาประมวลผลของการใช้วิธีการจำแนกแบบหนึ่งต่อหนึ่งเป็นอย่างมาก ในขณะที่มีประสิทธิภาพในการจำแนกสูงกว่าวิธีการจำแนกแบบหนึ่งต่อทั้งหมดอีกด้วย
Other Abstract: Multi-label classification is a supervised learning, where one example can belong to several classes. In the case of Support Vector Machine (SVM), One-versus-All (OVA) is the most common approach to tackle this problem. However, the accuracy is very limited due to extremely imbalanced training set. It is interesting that there have been only very few works that applied One-versus-One (OVO) in the multi-label domain even though it has been shown to provide better accuracy than OVA in the multiclass domain. Anyway, OVO requires an extremely high computational cost when there is a large number of labels. This research propose a multi-label classification framework that employs OVO incorporating with the undersampling, technique to alleviate the imbalanced issue. Spark framework along with a mechanism was applied to split a job to a set of small jobs and then processed them in parallel. The framework can induce OVO SVMs very fast, while maintaining the prediction accuracy even though, there is a large number of classes. The experiment was conducted on 6 standard multi-label datasets. The result indicate that our framework can really reduce computing time on Spark environment, while significantly outperforms OVA in terms of F1 on all data.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2559
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
URI: http://cuir.car.chula.ac.th/handle/123456789/52290
Appears in Collections:Eng - Theses

Files in This Item:

File Description SizeFormat
5770476621.pdf3.79 MBAdobe PDFView/Open  (Chula only)
View Statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - Feedback