Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/33369
Title: | เทคนิคการสุ่มเพิ่มตัวอย่างข้างน้อยสังเคราะห์และเทคนิคการสุ่มลดตัวอย่างข้างมากสำหรับปัญหาความไม่สมดุลระหว่างกลุ่ม |
Other Titles: | Synthetic minority over- sampling and majority under-sampling techniques for clsass imbalanced problems |
Authors: | ปณต ทรงวัฒนศิริ |
Advisors: | กรุง สินอภิรมย์สราญ |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิทยาศาสตร์ |
Advisor's Email: | krung@math.sc.chula.ac.th |
Subjects: | ค่าเฉลี่ย การสุ่มตัวอย่าง (สถิติ) Average Sampling (Statistics) Class imbalanced Over-sampling |
Issue Date: | 2553 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | เทคนิคการสุ่มเพิ่มตัวอย่างข้างน้อยสังเคราะห์และเทคนิคการสุ่มลดตัวอย่างข้างมากสำหรับปัญหาความไม่ดุลระหว่างกลุ่ม (SMOUTE) เป็นกระบวนจัดการข้อมูลก่อนการสร้างตัวแบบสำหรับการแก้ปัญหาความไม่ดุลระหว่างกลุ่ม SMOUTE เป็นการผสานระหว่าง SMOTE ซึ่งเป็นเทคนิคการเพิ่มจำนวนแบบสุ่ม (Over-sampling technique) โดยเพิ่มจำนวนข้อมูลของไมนอริตี้คลาสกับการใช้เทคนิคการลดแบบสุ่ม (Under-sampling technique) ลดจำนวนข้อมูลของมาจอริตี้คลาส ในส่วนของการลดแบบสุ่ม เราใช้ขั้นตอนวิธีค่าเฉลี่ย k (k-means algorithm) เพื่อแบ่งข้อมูลของมาจอริตี้คลาสออกเป็น k กลุ่ม และลดจำนวนข้อมูลของมาจอริตี้คลาสบริเวณใกล้เคียงกับเซนทรอยด์ (Centroid) แต่ละตัว เราใช้ตัวแบบ C4.5 ตัวแบบการแบ่งประเภทเบย์อย่างง่าย (Naïve Bayes) และตัวแบบเพอร์เซ็ปตรอนหลายชั้น (Multilayer perceptron) เป็นตัวแยกประเภท (Classifiers) ผลการทดสอบพบว่า SMOUTE มีความแม่นยำในการทำนายข้อมูลไมนอริตี้กว่า SMOTE และความเร็วของขั้นตอนวิธีของ SMOUTE เร็วกว่าขั้นตอนวิธีของ SMOTE สำหรับข้อมูลขนาดใหญ่ |
Other Abstract: | Synthetic minority over-sampling and majority under-sampling techniques for class imbalanced problems (SMOUTE) is the data preprocessing for handling the class imbalanced problem. SMOUTE uses synthetics minority over-sampling technique (SMOTE) to insert the minority class instances and uses under-sampling technique to purge the majority class instances. For under-sampling, we use k-means algorithm to partition the majority class instances into k clusters then we drop some majority class instances around centroids. We perform experiments based on three classifiers, C4.5, Naïve Bayes and multilayer perceptron. Our results show that classifiers using SMOUTE are correctly grouped the minority class better than SMOTE. Moreover, the speed of SMOUTE is much faster than that of SMOTE for large datasets. |
Description: | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2553 |
Degree Name: | วิทยาศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิทยาการคณนา |
URI: | http://cuir.car.chula.ac.th/handle/123456789/33369 |
URI: | http://doi.org/10.14457/CU.the.2010.1429 |
metadata.dc.identifier.DOI: | 10.14457/CU.the.2010.1429 |
Type: | Thesis |
Appears in Collections: | Sci - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
panote_so.pdf | 4.18 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.