Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/81642
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorKrung Sinapiromsaran-
dc.contributor.authorPiboon Polvimoltham-
dc.contributor.otherChulalongkorn University. Faculty of Sciences-
dc.date.accessioned2023-02-03T04:13:04Z-
dc.date.available2023-02-03T04:13:04Z-
dc.date.issued2022-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/81642-
dc.descriptionThesis (M.Sc.)--Chulalongkorn University, 2022-
dc.description.abstractA sampling method is one of the basic methods to deal with an imbalance problem appearing in machine learning. A dataset having an imbalance problem has a noticeably skewed distribution among different classes. There are three types of sampling techniques to solve this problem by balancing class distributions, undersampling technique, over-sampling technique, and combined sampling technique. In this research, the mass ratio variance scores of each data point of the same class are computed and used to remove noise from a majority class and synthesise instances from a minority class. The results of this proposed sampling technique improve recall over standard classifiers: a decision tree, a random forest, Linear SVM, and MLP on all synthesised datasets. Performances are reported on synthesised datasets and UCI datasets via three measures: Precision, Recall, and F1-score. Moreover, Wilcoxon signed-rank tests are used to confirm the improved performance.-
dc.description.abstractalternativeขั้นตอนวิธีการสุ่มตัวอย่างเป็นหนึ่งในขั้นตอนวิธีพื้นฐานในการจัดการกับปัญหาคลาสไม่ได้ดุลซึ่งปรากฏในเซตข้อมูลการเรียนรู้ของเครื่อง ชุดข้อมูลที่มีปัญหาความไม่สมดุลจะมีการ กระจายของข้อมูลเบ้ไปยังกลุ่มใดกลุ่มหนึ่ง เทคนิคการสุ่มตัวอย่างมี 3 ประเภทซึ่งสามารถใช้ในการแก้ปัญหาคลาสไม่สมดุลได้โดยการปรับดุลของการกระจายตัวของคลาส ได้แก่ เทคนิคการสุ่มลดตัวอย่าง เทคนิคการสุ่มตัวอย่างเพิ่ม และเทคนิควิธีผสมรวมกันของทั้งเทคนิคการสุ่มลดตัวอย่างและเทคนิคการสุ่มตัวอย่างเพิ่ม ในวิทยานิพนธ์นี้คะแนนความแปรปรวนของอัตราส่วนมวลของแต่ละตัวอย่างจะถูกคำนวนแยกคลาส จากนั้นจะถูกใช้กำจัดข้อมูลรบกวนออกจากคลาสส่วนมากและทำการสังเคราะห์ตัวอย่างเพิ่มในคลาสส่วนน้อย ผลลัพธ์ของขั้นตอนวิธีสุ่มที่ถูกเสนอ ปรับปรุงค่ารีคอลให้ดีขึ้นโดยใช้ตัวจำแนกประเภทมาตรฐาน ต้นไม้ตัดสินใจ ป่าสุ่ม ซัพพอร์ตเวกเตอร์แมทชีนแบบเชิงเส้นและ เพอร์เซ็ปตรอนหลายชั้นเหล่านี้ทดสอบกับชุดข้อมูลสังเคราะห์ การรายงานประสิทธิภาพบนชุดข้อมูลสังเคราะห์และชุดข้อมูล UCI ผ่านตัววัดประสิทธิภาพ 3 ตัวคือค่าความแม่นยำ ค่ารีคอลและ ค่าคะแนน F1 ที่ดีขึ้น การทดสอบ Wilcoxon ถูกใช้เพื่อยืนยันประสิทธิภาพที่ถูกปรับปรุงแล้ว-
dc.language.isoen-
dc.publisherChulalongkorn University-
dc.relation.urihttp://doi.org/10.58837/CHULA.THE.2022.8-
dc.rightsChulalongkorn University-
dc.subject.classificationComputer Science-
dc.titleMass ratio variance majority cleansing and minority oversampling technique for class imbalanced-
dc.title.alternativeกระบวนการทำความสะอาดตัวอย่างคลาสที่มีจำนวนมากและเพิ่มตัวอย่างคลาสที่มีจำนวนน้อยโดยใช้ความแปรปรวนของอัตราส่วนมวล-
dc.typeThesis-
dc.degree.nameMaster of Science-
dc.degree.levelMaster's Degree-
dc.degree.disciplineApplied Mathematics and Computational Science-
dc.degree.grantorChulalongkorn University-
dc.identifier.DOI10.58837/CHULA.THE.2022.8-
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
6270077823.pdf2.33 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.