Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/52290
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | พีรพล เวทีกูล | en_US |
dc.contributor.author | สุทธิพงษ์ แดงด้วง | en_US |
dc.contributor.other | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ | en_US |
dc.date.accessioned | 2017-03-03T03:04:39Z | - |
dc.date.available | 2017-03-03T03:04:39Z | - |
dc.date.issued | 2559 | en_US |
dc.identifier.uri | http://cuir.car.chula.ac.th/handle/123456789/52290 | - |
dc.description | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2559 | en_US |
dc.description.abstract | การจำแนกข้อมูลแบบหลายฉลาก เป็นวิธีการที่มีการใช้ความรู้ที่มีอยู่ก่อนหน้าในการจำแนกข้อมูล โดยในหนึ่งตัวอย่างนั้นสามารถปรากฏได้ในหลายกลุ่มข้อมูล ในกรณีของวิธีซัพพอร์ตเวคเตอร์แมชชีน วิธีการจำแนกแบบหนึ่งต่อทั้งหมดนั้นเป็นที่นิยมอย่างมากในการแก้ปัญหา อย่างไรก็ตาม วิธีการนี้มีข้อจำกัดในเรื่องของความแม่นยำในการทำนาย เพราะวิธีการนี้มักจะเกิดปัญหาเรื่องความไม่สมดุลของข้อมูลเสมอ วิธีจำแนกแบบหนึ่งต่อหนึ่งกำลังเป็นที่น่าสนใจเนื่องมาจากมีงานวิจัยจำนวนน้อยที่ได้นำเอาวิธีนี้ประยุกต์ใช้งานในงานด้านการจำแนกแบบหลายฉลาก แม้ว่าวิธีนี้จะได้รับการพิสูจน์ว่ามีประสิทธิภาพในการจำแนกมากกว่าวิธีหนึ่งต่อทั้งหมดในงานด้านการจำแนกแบบหลายประเภท อย่างไรก็ตาม วิธีนี้จำเป็นต้องใช้ระยะเวลาในการประมวลผลเป็นอย่างมาก เมื่อทำการทดลองกับข้อมูลที่มีจำนวนของกลุ่มข้อมูลเป็นจำนวนมาก งานวิจัยชิ้นนี้ได้เสนอวิธีการที่ใช้ในการแก้ปัญหางานด้านการจำแนกแบบหลายฉลากด้วยการประยุกต์ใช้งานวิธีการจำแนกแบบหนึ่งต่อหนึ่ง ซึ่งได้ทำการแก้ไขปัญหาความไม่สมดุลของข้อมูลที่เกิดขึ้นด้วยวิธีอันเดอร์แซมพลิ่ง และทำการประยุกต์ใช้งานระบบประมวลผลแบบกระจายสปาร์คด้วยวิธีการแบ่งงานออกเป็นหลาย ๆ ส่วนและทำการกระจายงานเพื่อให้งานแต่ละส่วนทำงานพร้อมกัน ซึ่งระบบนี้สามารถเพิ่มความเร็วในการประมวลผลให้กับวิธีซัพพอร์ตเวคเตอร์แมชชีนแบบหนึ่งต่อหนึ่ง ในขณะที่ยังสามารถคงประสิทธิภาพในการจำแนกข้อมูลไว้ได้แม้ว่าจะใช้งานร่วมกับชุดข้อมูลที่มีกลุ่มข้อมูลจำนวนมากก็ตาม งานวิจัยนี้ได้ทำการทดลองกับข้อมูลแบบหลายฉลากพื้นฐาน 6 ชุดข้อมูล ซึ่งผลของการทดลองนั้นแสดงให้เห็นว่าระบบที่ผู้วิจัยเสนอนั้นสามารถลดระยะเวลาประมวลผลของการใช้วิธีการจำแนกแบบหนึ่งต่อหนึ่งเป็นอย่างมาก ในขณะที่มีประสิทธิภาพในการจำแนกสูงกว่าวิธีการจำแนกแบบหนึ่งต่อทั้งหมดอีกด้วย | en_US |
dc.description.abstractalternative | Multi-label classification is a supervised learning, where one example can belong to several classes. In the case of Support Vector Machine (SVM), One-versus-All (OVA) is the most common approach to tackle this problem. However, the accuracy is very limited due to extremely imbalanced training set. It is interesting that there have been only very few works that applied One-versus-One (OVO) in the multi-label domain even though it has been shown to provide better accuracy than OVA in the multiclass domain. Anyway, OVO requires an extremely high computational cost when there is a large number of labels. This research propose a multi-label classification framework that employs OVO incorporating with the undersampling, technique to alleviate the imbalanced issue. Spark framework along with a mechanism was applied to split a job to a set of small jobs and then processed them in parallel. The framework can induce OVO SVMs very fast, while maintaining the prediction accuracy even though, there is a large number of classes. The experiment was conducted on 6 standard multi-label datasets. The result indicate that our framework can really reduce computing time on Spark environment, while significantly outperforms OVA in terms of F1 on all data. | en_US |
dc.language.iso | th | en_US |
dc.publisher | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.relation.uri | http://doi.org/10.58837/CHULA.THE.2016.823 | - |
dc.rights | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.subject | นิวรัลเน็ตเวิร์ค (วิทยาการคอมพิวเตอร์) | - |
dc.subject | การประมวลผลข้อมูลอิเล็กทรอนิกส์ | - |
dc.subject | Neural networks (Computer sciences) | - |
dc.subject | Electronic data processing | - |
dc.title | การประยุกต์ใช้ซัพพอร์ตเวคเตอร์แมชชีนแบบหนึ่งต่อหนึ่งบนข้อมูลแบบหลายฉลากโดยใช้สปาร์ค | en_US |
dc.title.alternative | Application of One-Versus-One Support Vector Machines to Classify Multi-Label Datasets Using Spark | en_US |
dc.type | Thesis | en_US |
dc.degree.name | วิทยาศาสตรมหาบัณฑิต | en_US |
dc.degree.level | ปริญญาโท | en_US |
dc.degree.discipline | วิทยาศาสตร์คอมพิวเตอร์ | en_US |
dc.degree.grantor | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.email.advisor | Peerapon.V@chula.ac.th,peerapon.v@chula.ac.th | en_US |
dc.identifier.DOI | 10.58837/CHULA.THE.2016.823 | - |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
5770476621.pdf | 3.79 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.