Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/52997
Title: การเปรียบเทียบประสิทธิภาพการจัดกลุ่มข้อมูลโดยใช้อัลกอริทึมการจัดกลุ่มแบบ 2 ขั้นตอน
Other Titles: Comparison of two-stage clustering algorithms
Authors: กัณฐิกา พรมมา
Advisors: อัครินทร์ ไพบูลย์พานิช
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี
Advisor's Email: Akarin.P@chula.ac.th
Subjects: อัลกอริทึม
การวิเคราะห์จัดกลุ่ม
Algorithms
Cluster analysis
Issue Date: 2556
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: การวิจัยในครั้งนี้ มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพการจัดกลุ่มข้อมูลโดยใช้อัลกอริทึมการจัดกลุ่มข้อมูลแบบ 2 ขั้นตอน 4 วิธีด้วยกัน ได้แก่ วิธีที่ 1 SOM ร่วมกับ K-Means วิธีที่ 2 SOM ร่วมกับ Fuzzy C-Means วิธีที่ 3 Ward ร่วมกับ K-Means และวิธีที่ 4 Ward ร่วมกับ Fuzzy C-means โดยทำการศึกษาสำหรับข้อมูลที่มีการแจกแจงแบบปกติหลายตัวแปร (Multivariate Normal Distribution) จำนวนตัวแปรที่ใช้ในการศึกษาครั้งนี้ คือ 2, 4 และ 6 ตัวแปร ลักษณะความสัมพันธ์ของตัวแปร ศึกษาทั้งในกรณีตัวแปรอิสระกัน และ ตัวแปรมีความสัมพันธ์กัน ข้อมูลที่ใช้ในการศึกษามาจากการจำลองข้อมูลโดยมีขนาดตัวอย่าง 25, 100 และ 300 จำนวนกลุ่มที่จำลอง คือ 2, 4 และ 6 กลุ่มสำหรับแต่ละขนาดตัวอย่าง โดยพิจารณาทั้งข้อมูลแต่ละกลุ่มไม่มีการซ้อนทับกัน (Nonoverlapping Clusters) และ ข้อมูลแต่ละกลุ่มมีการซ้อนทับกัน 40% (40% Overlapping Clusters) จากผลการศึกษาโดยเปรียบเทียบค่า Wilk’ s Lambda, ค่าความแตกต่างของข้อมูลภายในกลุ่ม (RMSSTD) และค่า Misclassification Rate พบว่า การจัดกลุ่มแบบ 2 ขั้นตอนด้วยวิธี SOM ร่วมกับ Fuzzy C-Means และวิธี Ward ร่วมกับ Fuzzy C-Means ให้ประสิทธิภาพการจัดกลุ่มดีกว่าวิธี SOM ร่วมกับ K-Means และ Ward ร่วมกับ K-Means
Other Abstract: The objective of this study is to compare four two-stage clustering algorithms: (1) SOM with K-Means, (2) SOM with Fuzzy C-Means, (3) Ward with K-Means and (4) Ward with Fuzzy C-Means. The simulated data using in this study is the multivariate normal distribution with number of variables p=2, 4 and 6 variables with uncorrelated and correlated variables. Data were simulated with sample sizes n=25, 100, 300 and number of clusters k=2, 4, 6. Clusters were also simulated considering both nonoverlapping and 40% overlapping clusters. Based on the simulation results, by comparing values of Wilk’ s Lambda, root mean square standard deviation (RMSSTD) and misclassification rate, SOM with Fuzzy C-Means and Ward with Fuzzy C-Means are better than SOM with K-Means and Ward with K-Means.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2556
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: สถิติ
URI: http://cuir.car.chula.ac.th/handle/123456789/52997
URI: http://doi.org/10.14457/CU.the.2013.1858
metadata.dc.identifier.DOI: 10.14457/CU.the.2013.1858
Type: Thesis
Appears in Collections:Acctn - Theses

Files in This Item:
File Description SizeFormat 
kanthika_pr.pdf3.49 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.