dc.contributor.advisor |
Krung Sinapiromsaran |
|
dc.contributor.author |
Piboon Polvimoltham |
|
dc.contributor.other |
Chulalongkorn University. Faculty of Sciences |
|
dc.date.accessioned |
2023-02-03T04:13:04Z |
|
dc.date.available |
2023-02-03T04:13:04Z |
|
dc.date.issued |
2022 |
|
dc.identifier.uri |
http://cuir.car.chula.ac.th/handle/123456789/81642 |
|
dc.description |
Thesis (M.Sc.)--Chulalongkorn University, 2022 |
|
dc.description.abstract |
A sampling method is one of the basic methods to deal with an imbalance problem appearing in machine learning. A dataset having an imbalance problem has a noticeably skewed distribution among different classes. There are three types of sampling techniques to solve this problem by balancing class distributions, undersampling technique, over-sampling technique, and combined sampling technique. In this research, the mass ratio variance scores of each data point of the same class are computed and used to remove noise from a majority class and synthesise instances from a minority class. The results of this proposed sampling technique improve recall over standard classifiers: a decision tree, a random forest, Linear SVM, and MLP on all synthesised datasets. Performances are reported on synthesised datasets and UCI datasets via three measures: Precision, Recall, and F1-score. Moreover, Wilcoxon signed-rank tests are used to confirm the improved performance. |
|
dc.description.abstractalternative |
ขั้นตอนวิธีการสุ่มตัวอย่างเป็นหนึ่งในขั้นตอนวิธีพื้นฐานในการจัดการกับปัญหาคลาสไม่ได้ดุลซึ่งปรากฏในเซตข้อมูลการเรียนรู้ของเครื่อง ชุดข้อมูลที่มีปัญหาความไม่สมดุลจะมีการ กระจายของข้อมูลเบ้ไปยังกลุ่มใดกลุ่มหนึ่ง เทคนิคการสุ่มตัวอย่างมี 3 ประเภทซึ่งสามารถใช้ในการแก้ปัญหาคลาสไม่สมดุลได้โดยการปรับดุลของการกระจายตัวของคลาส ได้แก่ เทคนิคการสุ่มลดตัวอย่าง เทคนิคการสุ่มตัวอย่างเพิ่ม และเทคนิควิธีผสมรวมกันของทั้งเทคนิคการสุ่มลดตัวอย่างและเทคนิคการสุ่มตัวอย่างเพิ่ม ในวิทยานิพนธ์นี้คะแนนความแปรปรวนของอัตราส่วนมวลของแต่ละตัวอย่างจะถูกคำนวนแยกคลาส จากนั้นจะถูกใช้กำจัดข้อมูลรบกวนออกจากคลาสส่วนมากและทำการสังเคราะห์ตัวอย่างเพิ่มในคลาสส่วนน้อย ผลลัพธ์ของขั้นตอนวิธีสุ่มที่ถูกเสนอ ปรับปรุงค่ารีคอลให้ดีขึ้นโดยใช้ตัวจำแนกประเภทมาตรฐาน ต้นไม้ตัดสินใจ ป่าสุ่ม ซัพพอร์ตเวกเตอร์แมทชีนแบบเชิงเส้นและ เพอร์เซ็ปตรอนหลายชั้นเหล่านี้ทดสอบกับชุดข้อมูลสังเคราะห์ การรายงานประสิทธิภาพบนชุดข้อมูลสังเคราะห์และชุดข้อมูล UCI ผ่านตัววัดประสิทธิภาพ 3 ตัวคือค่าความแม่นยำ ค่ารีคอลและ ค่าคะแนน F1 ที่ดีขึ้น การทดสอบ Wilcoxon ถูกใช้เพื่อยืนยันประสิทธิภาพที่ถูกปรับปรุงแล้ว |
|
dc.language.iso |
en |
|
dc.publisher |
Chulalongkorn University |
|
dc.relation.uri |
http://doi.org/10.58837/CHULA.THE.2022.8 |
|
dc.rights |
Chulalongkorn University |
|
dc.subject.classification |
Computer Science |
|
dc.title |
Mass ratio variance majority cleansing and minority oversampling technique for class imbalanced |
|
dc.title.alternative |
กระบวนการทำความสะอาดตัวอย่างคลาสที่มีจำนวนมากและเพิ่มตัวอย่างคลาสที่มีจำนวนน้อยโดยใช้ความแปรปรวนของอัตราส่วนมวล |
|
dc.type |
Thesis |
|
dc.degree.name |
Master of Science |
|
dc.degree.level |
Master's Degree |
|
dc.degree.discipline |
Applied Mathematics and Computational Science |
|
dc.degree.grantor |
Chulalongkorn University |
|
dc.identifier.DOI |
10.58837/CHULA.THE.2022.8 |
|