Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/52997
Title: | การเปรียบเทียบประสิทธิภาพการจัดกลุ่มข้อมูลโดยใช้อัลกอริทึมการจัดกลุ่มแบบ 2 ขั้นตอน |
Other Titles: | Comparison of two-stage clustering algorithms |
Authors: | กัณฐิกา พรมมา |
Advisors: | อัครินทร์ ไพบูลย์พานิช |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี |
Advisor's Email: | Akarin.P@chula.ac.th |
Subjects: | อัลกอริทึม การวิเคราะห์จัดกลุ่ม Algorithms Cluster analysis |
Issue Date: | 2556 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | การวิจัยในครั้งนี้ มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพการจัดกลุ่มข้อมูลโดยใช้อัลกอริทึมการจัดกลุ่มข้อมูลแบบ 2 ขั้นตอน 4 วิธีด้วยกัน ได้แก่ วิธีที่ 1 SOM ร่วมกับ K-Means วิธีที่ 2 SOM ร่วมกับ Fuzzy C-Means วิธีที่ 3 Ward ร่วมกับ K-Means และวิธีที่ 4 Ward ร่วมกับ Fuzzy C-means โดยทำการศึกษาสำหรับข้อมูลที่มีการแจกแจงแบบปกติหลายตัวแปร (Multivariate Normal Distribution) จำนวนตัวแปรที่ใช้ในการศึกษาครั้งนี้ คือ 2, 4 และ 6 ตัวแปร ลักษณะความสัมพันธ์ของตัวแปร ศึกษาทั้งในกรณีตัวแปรอิสระกัน และ ตัวแปรมีความสัมพันธ์กัน ข้อมูลที่ใช้ในการศึกษามาจากการจำลองข้อมูลโดยมีขนาดตัวอย่าง 25, 100 และ 300 จำนวนกลุ่มที่จำลอง คือ 2, 4 และ 6 กลุ่มสำหรับแต่ละขนาดตัวอย่าง โดยพิจารณาทั้งข้อมูลแต่ละกลุ่มไม่มีการซ้อนทับกัน (Nonoverlapping Clusters) และ ข้อมูลแต่ละกลุ่มมีการซ้อนทับกัน 40% (40% Overlapping Clusters) จากผลการศึกษาโดยเปรียบเทียบค่า Wilk’ s Lambda, ค่าความแตกต่างของข้อมูลภายในกลุ่ม (RMSSTD) และค่า Misclassification Rate พบว่า การจัดกลุ่มแบบ 2 ขั้นตอนด้วยวิธี SOM ร่วมกับ Fuzzy C-Means และวิธี Ward ร่วมกับ Fuzzy C-Means ให้ประสิทธิภาพการจัดกลุ่มดีกว่าวิธี SOM ร่วมกับ K-Means และ Ward ร่วมกับ K-Means |
Other Abstract: | The objective of this study is to compare four two-stage clustering algorithms: (1) SOM with K-Means, (2) SOM with Fuzzy C-Means, (3) Ward with K-Means and (4) Ward with Fuzzy C-Means. The simulated data using in this study is the multivariate normal distribution with number of variables p=2, 4 and 6 variables with uncorrelated and correlated variables. Data were simulated with sample sizes n=25, 100, 300 and number of clusters k=2, 4, 6. Clusters were also simulated considering both nonoverlapping and 40% overlapping clusters. Based on the simulation results, by comparing values of Wilk’ s Lambda, root mean square standard deviation (RMSSTD) and misclassification rate, SOM with Fuzzy C-Means and Ward with Fuzzy C-Means are better than SOM with K-Means and Ward with K-Means. |
Description: | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2556 |
Degree Name: | วิทยาศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | สถิติ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/52997 |
URI: | http://doi.org/10.14457/CU.the.2013.1858 |
metadata.dc.identifier.DOI: | 10.14457/CU.the.2013.1858 |
Type: | Thesis |
Appears in Collections: | Acctn - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
kanthika_pr.pdf | 3.49 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.