Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/35687
Title: คุณภาพการนอนหลับและภาวะซึมเศร้าในเด็กที่มีความปวดเรื้อรัง
Other Titles: An adhesive modifier in decision trees for imbalanced data sets
Authors: อุไรรัตน์ กฤษดาวาณิชย์
Advisors: สุกรี สินธุภิญโญ
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: sukree@cp.eng.chula.ac.th
Subjects: ต้นไม้ตัดสินใจ
อัลกอริทึม
ดาต้าไมนิง
Decision trees
Algorithms
Data mining
Issue Date: 2553
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: ต้นไม้ตัดสินใจเป็นเทคนิคการจำแนกข้อมูลที่ใช้กันอย่างแพร่หลายทางด้านการทำเหมืองข้อมูล การสร้างต้นไม้ตัดสินใจสามารถสร้างได้หลายรูปแบบขึ้นอยู่กับการเลือกตัววัดความสามารถในการแบ่งแยกข้อมูล วิธีหนึ่งที่นิยมนำมาใช้ คือ ID3 ซึ่งเลือกคุณลักษณะบนพื้นฐานของทฤษฎีสารสนเทศ และ C4.5 ได้พัฒนาต่อมาจาก ID3 ใช้ทฤษฎีสารสนเทศเช่นเดียวกับ ID3 และได้แก้ปัญหาไบแอสด้วยค่าสารสนเทศการแบ่งแยก ทั้งสองวิธีนี้รวดเร็ว และเข้าใจง่ายเมื่อเทียบกับวิธีอื่นๆ และเหมาะกับข้อมูลที่มีการกระจายแบบสมดุล แต่เมื่อนำมาจำแนกข้อมูลไม่สมดุล การเลือกคุณลักษณะจะให้ความสำคัญกับกลุ่มที่มีจำนวนตัวอย่างมาก ไม่สนใจกลุ่มที่มีจำนวนตัวอย่างน้อย ทำให้ได้ผลการทำนายสูงในกลุ่มที่มีมาก แต่ให้ผลการทำนายต่ำในกลุ่มที่มีน้อย วิทยานิพนธ์ฉบับนี้จึงนำเสนอเอนโทรปีแบบใหม่สำหรับต้นไม้ตัดสินใจ โดยใช้วิธี C4.5 เป็นพื้นฐาน สำหรับการเรียนรู้ข้อมูลแบบสองกลุ่ม จุดประสงค์คือ เพื่อจำแนกตัวอย่างน้อยให้ดีขึ้น ในการทดลองนั้นใช้การทดสอบแบบไขว้ข้าม 5 กลุ่มกับ 16 ชุดข้อมูลไม่สมดุล และเปรียบเทียบผลการทดลองกับอัลกอริทึม C4.5, เอนโทรปีแบบอสมมาตร และเอนโทรปีแบบออกจากศูนย์กลาง ทดสอบประสิทธิภาพด้วยค่าความระลึก ค่าความเที่ยง และค่าเอฟ ซึ่งคำนวณได้จากตารางคอนฟิวชันเมตริกซ์ จากผลการทดลองพบว่าวิธีการที่นำเสนอสามารถสร้างกฎของกลุ่มที่มีน้อยได้ดีกว่าวิธีอื่นจึงทำให้จำแนกตัวอย่างในกลุ่มที่มีน้อยได้ดี
Other Abstract: In data mining research, decision tree is a famous method for classification. It can build different forms of decision trees based on selected splitting attribute. One of the most famous algorithms is ID3, in which choice of splitting attributes is based on information theory. C4.5 is an improvement of ID3 which, in the same way as ID3, constructs a decision trees using information theory but reducing the bias of ID3 by splitting information. Both are relatively fast and easily understood. However they are suitable only for the balanced class distribution, we cannot achieve good results on imbalanced data set. In this paper, we present a new entropy measure based on C4.5 method for decision trees learning on two-class data sets. We need a prediction model, which can improve the accuracy of the minority class. In our experiments, we tested our algorithm on 16 datasets using five-fold cross-validation method. We compared the results to C4.5, Asymmetric Entropy and Off-Center Entropy. Recall, precision, and f-measure were computed. The results show that the proposed method can construct the better rules which finally improve the accuracy of the minority class data.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2553
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิทยาศาสตร์คอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/35687
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
urairat_kr.pdf2.56 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.