Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/43669
Title: | การจำแนกต้นไม้ตัดสินใจสำหรับชุดข้อมูลไม่สมดุลโดยใช้น้ำหนักต่างกันบนข้อมูลสังเคราะห์ |
Other Titles: | DECISION TREE CLASSIFICATION OF IMBALANCED DATA SETS USING DIFFERENT WEIGHTS ON SYNTHESIZED DATA |
Authors: | สุรพงษ์ เชี่ยวสกุลวัฒนา |
Advisors: | สุกรี สินธุภิญโญ |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Advisor's Email: | sukree.s@chula.ac.th |
Subjects: | โปรแกรมคอมพิวเตอร์ เอนโทรปี Computer programs Entropy |
Issue Date: | 2556 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | การจำแนกต้นไม้ติดสินใจสำหรับชุดข้อมูลไม่สมดุล โดยใช้น้ำหนักต่างกันบนข้อมูลสังเคราะห์ เป็นวิธีการที่ใช้เทคนิค SMOTE ในการเพิ่มจำนวนตัวอย่างกลุ่มน้อยด้วยการสังเคราะห์ข้อมูลกลุ่มน้อยขึ้น เพื่อให้จำนวนตัวอย่างกลุ่มน้อยที่เพิ่มขึ้นมีจำนวนใกล้เคียงกับตัวอย่างกลุ่มมาก และปรับการหาเอนโทรปีใหม่ ซึ่งใช้วิธี C4.5เป็นพื้นฐาน เพื่อจำแนกข้อมูลกลุ่มน้อยได้ดีขึ้น สำหรับการจำแนกข้อมูลแบบสองกลุ่ม ทำการทดสอบแบบไขว้ข้ามสิบกลุ่ม โดยเลือกชุดข้อมูลไม่สมดุลจำนวน 16 ชุดข้อมูลมาทำการทดลอง และเปรียบเทียบผลการทดลองกับอัลกอริทึม C4.5 ที่ใช้เทคนิค SMOTE การทดสอบพบว่าวิธีการที่นำเสนอสามารถจำแนกข้อมูลกลุ่มน้อยได้ดีกว่าวิธีอื่นๆ เมื่อใช้น้ำหนักที่ต่างกันบนข้อมูลสังเคราะห์ |
Other Abstract: | Our classification method for an imbalanced data set is based on the decision tree techniques with SMOTE technique. In general, the SMOTE technique will increase the number of minorities by synthesizing new set of the minority class data and augmenting this new data set to the original data set. With the SMOTE technique, the data set becomes almost balanced. We adjust the original entropy function of C4.5 to better handle the newly synthesized data in the augmented data set. In our experiment, we tested our method using standard 10-fold cross validation on 16 imbalanced data sets. All of data sets are two-class data set. The results showed that the presented method performed better than other methods tested in our experiments. |
Description: | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2556 |
Degree Name: | วิทยาศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิทยาศาสตร์คอมพิวเตอร์ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/43669 |
URI: | http://doi.org/10.14457/CU.the.2013.1125 |
metadata.dc.identifier.DOI: | 10.14457/CU.the.2013.1125 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
5370371021.pdf | 3.86 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.