dc.contributor.advisor |
นัท กุลวานิช |
en_US |
dc.contributor.author |
จิรวรรณ ไพบูลย์วรชาติ |
en_US |
dc.contributor.other |
จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี |
en_US |
dc.date.accessioned |
2015-06-24T06:45:55Z |
|
dc.date.available |
2015-06-24T06:45:55Z |
|
dc.date.issued |
2556 |
en_US |
dc.identifier.uri |
http://cuir.car.chula.ac.th/handle/123456789/43948 |
|
dc.description |
วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2556 |
en_US |
dc.description.abstract |
งานวิจัยนี้จึงมีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพวิธีการจัดกลุ่มข้อมูล 4 วิธี คือ วิธีการจัดกลุ่มแบบลำดับชั้น, วิธีการจัดกลุ่มแบบเค-มีน, วิธีการจัดกลุ่มแบบฟัซซี่ซีมีน และ วิธีการจัดกลุ่มแบบอัลกอริทึม EM โดยทำการจำลองข้อมูลที่มีการแจกแจงปกติแบบผสม ซึ่งแบ่งออกเป็น 2 กรณี ดังนี้ 1.กรณีที่ฐานข้อมูลอยู่ในรูปแบบวงรี (Non Spherical) 2.กรณีที่ฐานข้อมูลอยู่ในรูปแบบวงกลม (Spherical or Isotopic) ทำการจำลองข้อมูลที่มีจำนวนกลุ่มของการซ้อนทับกัน 2, 3 และ 4 กลุ่ม ตัวแปรที่ใช้ในการศึกษามี 2 และ 3 ตัวแปร ขนาดข้อมูลแต่ละกลุ่มเท่ากับ 50, 100 และ 300 ตัวอย่าง กำหนดจำนวนกลุ่มของการจัดกลุ่มข้อมูลเท่ากับ 2, 3 และ 4 กลุ่ม ทำการเปรียบเทียบประสิทธิภาพของวิธีการจัดกลุ่มข้อมูลจาก 2 วิธี คือ วิธี Calinski and Harabasz index (Pseudo F) และวิธี Silhouette width พบว่า เมื่อทำการจำลองข้อมูลกรณีที่ฐานข้อมูลอยู่ในรูปแบบวงรี (Non Spherical) วิธีการจัดกลุ่มข้อมูลทั้ง 4 วิธี เป็นวิธีการจัดกลุ่มที่มีประสิทธิภาพที่ดี ตามแต่ละสถานการณ์ เมื่อทำการจำลองข้อมูลกรณีที่ฐานข้อมูลอยู่ในรูปแบบวงกลม (Spherical or Isotopic) วิธีการจัดกลุ่มแบบอัลกอริทึม EM เป็นวิธีการจัดกลุ่มที่มีประสิทธิภาพที่ดี เมื่อจำนวนกลุ่มของการซ้อนทับ และอัตราการซ้อนทับเฉลี่ยมีค่าเพิ่มขึ้น |
en_US |
dc.description.abstractalternative |
The purpose of this research is to compare the efficiency of 4 clustering. 4 clustering are Hierarchical Clustering, K-Means Clustering, Fuzzy C-Means Clustering and Expectation-Maximization Algorithm (EM Clustering). The simulated data with mixture of Gaussian distribution can be considered into 2 cases which are Non-Spherical and Spherical. The simulations of the data with overlap 2, 3 and 4 clusters have 2 and 3 variables and the sample size of each data is 50, 100, and 300. There are 2 clustering which are Calinski and Harabasz index (Pseudo F) and Silhouette width. When the database is simulated in Non spherical, the 4 methods clustering are the effective methods base on situation. However, when the database is simulated in spherical, EM is the most effective method which depends on the increasing of overlapping number and the average of overlap. |
en_US |
dc.language.iso |
th |
en_US |
dc.publisher |
จุฬาลงกรณ์มหาวิทยาลัย |
en_US |
dc.relation.uri |
http://doi.org/10.14457/CU.the.2013.1398 |
|
dc.rights |
จุฬาลงกรณ์มหาวิทยาลัย |
en_US |
dc.subject |
การแจกแจงปกติ |
|
dc.subject |
สถิติวิเคราะห์ |
|
dc.subject |
Gaussian distribution |
|
dc.title |
การเปรียบเทียบวิธีการจัดกลุ่มสำหรับข้อมูลที่มีการแจกแจงปกติแบบผสม |
en_US |
dc.title.alternative |
COMPARISON OF CLUSTERING ALGORITHMS FOR MIXTURES OF GAUSSIAN DISTRIBUTION |
en_US |
dc.type |
Thesis |
en_US |
dc.degree.name |
วิทยาศาสตรมหาบัณฑิต |
en_US |
dc.degree.level |
ปริญญาโท |
en_US |
dc.degree.discipline |
สถิติ |
en_US |
dc.degree.grantor |
จุฬาลงกรณ์มหาวิทยาลัย |
en_US |
dc.email.advisor |
nat.kulvanich@gmail.com |
en_US |
dc.identifier.DOI |
10.14457/CU.the.2013.1398 |
|