Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/77881
Title: Minority oversampling framework for class imbalance problem
Other Titles: กรอบงานการสุ่มเพิ่มตัวอย่างข้างน้อยสำหรับปัญหาความไม่ดุลระหว่างกลุ่ม
Authors: Wacharasak Siriseriwan
Advisors: Krung Sinapiromsaran
Other author: Chulalongkorn University. Faculty of Science
Subjects: Data mining
Sampling (Statistics)
เหมืองข้อมูล
การสุ่มตัวอย่าง (สถิติ)
Issue Date: 2013
Publisher: Chulalongkorn University.
Abstract: This dissertation enhances oversampling techniques which are used in a class imbalance problem. Several weaknesses of existing oversampling techniques are investigated and the minority oversampling framework is suggested to overcome these weaknesses and improves the classification performances. This dissertation provides the framework which contains three research works that deal with different aspects of existing oversampling techniques. The first work is Relocating Safe-level SMOTE (RSLS) to avoid conflicted synthetic instances near majority instances. The second work is Adaptive Neighbor SMOTE (ANS) which provides the dynamic number of nearest neighbors in SMOTE algorithm. The final work is the minority outcast handling process with 1-nearest neighbor to handle noises of positive instances in the dataset for improving the classification performance. This minority outcast handling process is augmented into RSLS and ANS to boost their accuracies. The experimental results on 14 benchmark datasets and 5 classifiers confirm that both oversampling techniques with minority outcast handling outperform other oversampling techniques in most datasets under three performance measures; F-measure, geometric mean and adjusted geometric mean. Wilcoxon sign ranked test is conducted to verify that the improvements caused by these two oversampling techniques are statistically significant.
Other Abstract: วิทยานิพนธ์นี้ได้ปรับปรุงแก้ไขวิธีการสุ่มเพิ่มตัวอย่างที่ใช้ในปัญหาความไม่ดุลระหว่างกลุ่ม จุดด้อยของ วิธีการสุ่มเพิ่มตัวอย่างที่มีอยู่ได้ถูกวิเคราะห์และกรอบงานสุ่มตัวอย่างข้างน้อยได้ถูกเสนอเพื่อแก้ไขจุดด้อยเหล่านี้พร้อมการเพิ่มประสิทธิภาพในการแบ่งกลุ่ม งานวิจัยสามชิ้นในกรอบงานนี้ได้จัดการกับแง่มุมที่เป็นจุดด้อยของวิธีการสุ่มตัวอย่างที่มีอยู่ งานชิ้นแรกคือ Relocating Safe-level SMOTE ที่หลีกเลี่ยงการสังเคราะห์ ข้อมูลใกล้กับจุดข้อมูลกลุ่มข้างมาก งานชิ้นที่สองคือ Adaptive Neighbor SMOTE (ANS) ที่ให้จำนวนเพื่อนบ้านแบบพลวัต ที่เป็นกระบวนการหนึ่งในวิธีการ SMOTE งานชิ้นสุดท้ายคือ ขั้นตอนการจัดการจุดข้อมูลข้างน้อยนอกคอกด้วยเพื่อนบ้านที่ใกล้ที่สุด สำหรับจุดข้อมูลส่วนเกินของกลุ่มข้างน้อย เพื่อพัฒนาผลลัพธ์ในการแบ่งกลุ่ม โดยที่ minority outcast handling นี้จะเป็นส่วนเพิ่มเติมของ RSLS และ ANS เพื่อเพิ่มความแม่นยำของทั้งสองวิธี ผลการทดลองบนชุดข้อมูลมาตรฐาน 14 ชุดและตัวแบบจำแนกประเภท 5 แบบ แสดงว่าวิธีการสุ่มเพิ่มตัวอย่างทั้งสองและขั้นตอนการจัดการจุดข้อมูลข้างน้อยนอกคอก สามารถเอา ชนะวิธีการสุ่มเพิ่มตัวอย่างข้างน้อยอื่น ๆ ในชุดข้อมูลส่วนใหญ่ ภายใต้ตัววัด F-measure, geometric mean และ adjusted geometric mean นอกจากนี้การทดสอบวิลคอกซันถูกใช้เพื่อแสดงให้เห็นว่าการพัฒนาขึ้นโดยรวมที่เกิดจากวิธีการทั้งสองมีนัยสำคัญทางสถิติ
Degree Name: Doctor of Philosophy
Degree Level: Doctoral Degree
Degree Discipline: Computational Science
URI: http://cuir.car.chula.ac.th/handle/123456789/77881
URI: http://doi.org/10.14457/CU.the.2013.1921
metadata.dc.identifier.DOI: 10.14457/CU.the.2013.1921
Type: Thesis
Appears in Collections:Grad - Theses

Files in This Item:
File Description SizeFormat 
Wacharasak_si_front_p.pdfCover and abstract958.37 kBAdobe PDFView/Open
Wacharasak_si_ch1_p.pdfChapter 1744.88 kBAdobe PDFView/Open
Wacharasak_si_ch2_p.pdfChapter 21.71 MBAdobe PDFView/Open
Wacharasak_si_ch3_p.pdfChapter 31.14 MBAdobe PDFView/Open
Wacharasak_si_ch4_p.pdfChapter 41.88 MBAdobe PDFView/Open
Wacharasak_si_ch5_p.pdfChapter 5645.19 kBAdobe PDFView/Open
Wacharasak_si_back_p.pdfReference and appendix4.38 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.