Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/33369
Title: เทคนิคการสุ่มเพิ่มตัวอย่างข้างน้อยสังเคราะห์และเทคนิคการสุ่มลดตัวอย่างข้างมากสำหรับปัญหาความไม่สมดุลระหว่างกลุ่ม
Other Titles: Synthetic minority over- sampling and majority under-sampling techniques for clsass imbalanced problems
Authors: ปณต ทรงวัฒนศิริ
Advisors: กรุง สินอภิรมย์สราญ
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิทยาศาสตร์
Advisor's Email: krung@math.sc.chula.ac.th
Subjects: ค่าเฉลี่ย
การสุ่มตัวอย่าง (สถิติ)
Average
Sampling (Statistics)
Class imbalanced
Over-sampling
Issue Date: 2553
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: เทคนิคการสุ่มเพิ่มตัวอย่างข้างน้อยสังเคราะห์และเทคนิคการสุ่มลดตัวอย่างข้างมากสำหรับปัญหาความไม่ดุลระหว่างกลุ่ม (SMOUTE) เป็นกระบวนจัดการข้อมูลก่อนการสร้างตัวแบบสำหรับการแก้ปัญหาความไม่ดุลระหว่างกลุ่ม SMOUTE เป็นการผสานระหว่าง SMOTE ซึ่งเป็นเทคนิคการเพิ่มจำนวนแบบสุ่ม (Over-sampling technique) โดยเพิ่มจำนวนข้อมูลของไมนอริตี้คลาสกับการใช้เทคนิคการลดแบบสุ่ม (Under-sampling technique) ลดจำนวนข้อมูลของมาจอริตี้คลาส ในส่วนของการลดแบบสุ่ม เราใช้ขั้นตอนวิธีค่าเฉลี่ย k (k-means algorithm) เพื่อแบ่งข้อมูลของมาจอริตี้คลาสออกเป็น k กลุ่ม และลดจำนวนข้อมูลของมาจอริตี้คลาสบริเวณใกล้เคียงกับเซนทรอยด์ (Centroid) แต่ละตัว เราใช้ตัวแบบ C4.5 ตัวแบบการแบ่งประเภทเบย์อย่างง่าย (Naïve Bayes) และตัวแบบเพอร์เซ็ปตรอนหลายชั้น (Multilayer perceptron) เป็นตัวแยกประเภท (Classifiers) ผลการทดสอบพบว่า SMOUTE มีความแม่นยำในการทำนายข้อมูลไมนอริตี้กว่า SMOTE และความเร็วของขั้นตอนวิธีของ SMOUTE เร็วกว่าขั้นตอนวิธีของ SMOTE สำหรับข้อมูลขนาดใหญ่
Other Abstract: Synthetic minority over-sampling and majority under-sampling techniques for class imbalanced problems (SMOUTE) is the data preprocessing for handling the class imbalanced problem. SMOUTE uses synthetics minority over-sampling technique (SMOTE) to insert the minority class instances and uses under-sampling technique to purge the majority class instances. For under-sampling, we use k-means algorithm to partition the majority class instances into k clusters then we drop some majority class instances around centroids. We perform experiments based on three classifiers, C4.5, Naïve Bayes and multilayer perceptron. Our results show that classifiers using SMOUTE are correctly grouped the minority class better than SMOTE. Moreover, the speed of SMOUTE is much faster than that of SMOTE for large datasets.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2553
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิทยาการคณนา
URI: http://cuir.car.chula.ac.th/handle/123456789/33369
URI: http://doi.org/10.14457/CU.the.2010.1429
metadata.dc.identifier.DOI: 10.14457/CU.the.2010.1429
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
panote_so.pdf4.18 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.