Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/81642
Title: Mass ratio variance majority cleansing and minority oversampling technique for class imbalanced
Other Titles: กระบวนการทำความสะอาดตัวอย่างคลาสที่มีจำนวนมากและเพิ่มตัวอย่างคลาสที่มีจำนวนน้อยโดยใช้ความแปรปรวนของอัตราส่วนมวล
Authors: Piboon Polvimoltham
Advisors: Krung Sinapiromsaran
Other author: Chulalongkorn University. Faculty of Sciences
Issue Date: 2022
Publisher: Chulalongkorn University
Abstract: A sampling method is one of the basic methods to deal with an imbalance problem appearing in machine learning. A dataset having an imbalance problem has a noticeably skewed distribution among different classes. There are three types of sampling techniques to solve this problem by balancing class distributions, undersampling technique, over-sampling technique, and combined sampling technique. In this research, the mass ratio variance scores of each data point of the same class are computed and used to remove noise from a majority class and synthesise instances from a minority class. The results of this proposed sampling technique improve recall over standard classifiers: a decision tree, a random forest, Linear SVM, and MLP on all synthesised datasets. Performances are reported on synthesised datasets and UCI datasets via three measures: Precision, Recall, and F1-score. Moreover, Wilcoxon signed-rank tests are used to confirm the improved performance.
Other Abstract: ขั้นตอนวิธีการสุ่มตัวอย่างเป็นหนึ่งในขั้นตอนวิธีพื้นฐานในการจัดการกับปัญหาคลาสไม่ได้ดุลซึ่งปรากฏในเซตข้อมูลการเรียนรู้ของเครื่อง ชุดข้อมูลที่มีปัญหาความไม่สมดุลจะมีการ กระจายของข้อมูลเบ้ไปยังกลุ่มใดกลุ่มหนึ่ง เทคนิคการสุ่มตัวอย่างมี 3 ประเภทซึ่งสามารถใช้ในการแก้ปัญหาคลาสไม่สมดุลได้โดยการปรับดุลของการกระจายตัวของคลาส ได้แก่ เทคนิคการสุ่มลดตัวอย่าง เทคนิคการสุ่มตัวอย่างเพิ่ม และเทคนิควิธีผสมรวมกันของทั้งเทคนิคการสุ่มลดตัวอย่างและเทคนิคการสุ่มตัวอย่างเพิ่ม ในวิทยานิพนธ์นี้คะแนนความแปรปรวนของอัตราส่วนมวลของแต่ละตัวอย่างจะถูกคำนวนแยกคลาส จากนั้นจะถูกใช้กำจัดข้อมูลรบกวนออกจากคลาสส่วนมากและทำการสังเคราะห์ตัวอย่างเพิ่มในคลาสส่วนน้อย ผลลัพธ์ของขั้นตอนวิธีสุ่มที่ถูกเสนอ ปรับปรุงค่ารีคอลให้ดีขึ้นโดยใช้ตัวจำแนกประเภทมาตรฐาน ต้นไม้ตัดสินใจ ป่าสุ่ม ซัพพอร์ตเวกเตอร์แมทชีนแบบเชิงเส้นและ เพอร์เซ็ปตรอนหลายชั้นเหล่านี้ทดสอบกับชุดข้อมูลสังเคราะห์ การรายงานประสิทธิภาพบนชุดข้อมูลสังเคราะห์และชุดข้อมูล UCI ผ่านตัววัดประสิทธิภาพ 3 ตัวคือค่าความแม่นยำ ค่ารีคอลและ ค่าคะแนน F1 ที่ดีขึ้น การทดสอบ Wilcoxon ถูกใช้เพื่อยืนยันประสิทธิภาพที่ถูกปรับปรุงแล้ว
Description: Thesis (M.Sc.)--Chulalongkorn University, 2022
Degree Name: Master of Science
Degree Level: Master's Degree
Degree Discipline: Applied Mathematics and Computational Science
URI: http://cuir.car.chula.ac.th/handle/123456789/81642
URI: http://doi.org/10.58837/CHULA.THE.2022.8
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2022.8
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
6270077823.pdf2.33 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.