DSpace Repository

การเปรียบเทียบวิธีการจัดกลุ่มสำหรับข้อมูลที่มีการแจกแจงปกติแบบผสม

Show simple item record

dc.contributor.advisor นัท กุลวานิช en_US
dc.contributor.author จิรวรรณ ไพบูลย์วรชาติ en_US
dc.contributor.other จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี en_US
dc.date.accessioned 2015-06-24T06:45:55Z
dc.date.available 2015-06-24T06:45:55Z
dc.date.issued 2556 en_US
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/43948
dc.description วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2556 en_US
dc.description.abstract งานวิจัยนี้จึงมีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพวิธีการจัดกลุ่มข้อมูล 4 วิธี คือ วิธีการจัดกลุ่มแบบลำดับชั้น, วิธีการจัดกลุ่มแบบเค-มีน, วิธีการจัดกลุ่มแบบฟัซซี่ซีมีน และ วิธีการจัดกลุ่มแบบอัลกอริทึม EM โดยทำการจำลองข้อมูลที่มีการแจกแจงปกติแบบผสม ซึ่งแบ่งออกเป็น 2 กรณี ดังนี้ 1.กรณีที่ฐานข้อมูลอยู่ในรูปแบบวงรี (Non Spherical) 2.กรณีที่ฐานข้อมูลอยู่ในรูปแบบวงกลม (Spherical or Isotopic) ทำการจำลองข้อมูลที่มีจำนวนกลุ่มของการซ้อนทับกัน 2, 3 และ 4 กลุ่ม ตัวแปรที่ใช้ในการศึกษามี 2 และ 3 ตัวแปร ขนาดข้อมูลแต่ละกลุ่มเท่ากับ 50, 100 และ 300 ตัวอย่าง กำหนดจำนวนกลุ่มของการจัดกลุ่มข้อมูลเท่ากับ 2, 3 และ 4 กลุ่ม ทำการเปรียบเทียบประสิทธิภาพของวิธีการจัดกลุ่มข้อมูลจาก 2 วิธี คือ วิธี Calinski and Harabasz index (Pseudo F) และวิธี Silhouette width พบว่า เมื่อทำการจำลองข้อมูลกรณีที่ฐานข้อมูลอยู่ในรูปแบบวงรี (Non Spherical) วิธีการจัดกลุ่มข้อมูลทั้ง 4 วิธี เป็นวิธีการจัดกลุ่มที่มีประสิทธิภาพที่ดี ตามแต่ละสถานการณ์ เมื่อทำการจำลองข้อมูลกรณีที่ฐานข้อมูลอยู่ในรูปแบบวงกลม (Spherical or Isotopic) วิธีการจัดกลุ่มแบบอัลกอริทึม EM เป็นวิธีการจัดกลุ่มที่มีประสิทธิภาพที่ดี เมื่อจำนวนกลุ่มของการซ้อนทับ และอัตราการซ้อนทับเฉลี่ยมีค่าเพิ่มขึ้น en_US
dc.description.abstractalternative The purpose of this research is to compare the efficiency of 4 clustering. 4 clustering are Hierarchical Clustering, K-Means Clustering, Fuzzy C-Means Clustering and Expectation-Maximization Algorithm (EM Clustering). The simulated data with mixture of Gaussian distribution can be considered into 2 cases which are Non-Spherical and Spherical. The simulations of the data with overlap 2, 3 and 4 clusters have 2 and 3 variables and the sample size of each data is 50, 100, and 300. There are 2 clustering which are Calinski and Harabasz index (Pseudo F) and Silhouette width. When the database is simulated in Non spherical, the 4 methods clustering are the effective methods base on situation. However, when the database is simulated in spherical, EM is the most effective method which depends on the increasing of overlapping number and the average of overlap. en_US
dc.language.iso th en_US
dc.publisher จุฬาลงกรณ์มหาวิทยาลัย en_US
dc.relation.uri http://doi.org/10.14457/CU.the.2013.1398
dc.rights จุฬาลงกรณ์มหาวิทยาลัย en_US
dc.subject การแจกแจงปกติ
dc.subject สถิติวิเคราะห์
dc.subject Gaussian distribution
dc.title การเปรียบเทียบวิธีการจัดกลุ่มสำหรับข้อมูลที่มีการแจกแจงปกติแบบผสม en_US
dc.title.alternative COMPARISON OF CLUSTERING ALGORITHMS FOR MIXTURES OF GAUSSIAN DISTRIBUTION en_US
dc.type Thesis en_US
dc.degree.name วิทยาศาสตรมหาบัณฑิต en_US
dc.degree.level ปริญญาโท en_US
dc.degree.discipline สถิติ en_US
dc.degree.grantor จุฬาลงกรณ์มหาวิทยาลัย en_US
dc.email.advisor nat.kulvanich@gmail.com en_US
dc.identifier.DOI 10.14457/CU.the.2013.1398


Files in this item

This item appears in the following Collection(s)

Show simple item record