Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/50395
Title: | การเปรียบเทียบวิธีการระบุค่าพารามิเตอร์ในวิธี DBSCAN |
Other Titles: | THE COMPARISON OF PARAMETER SPECIFICATION METHODS IN DBSCAN ALGORITHM |
Authors: | วรนัญ โกวิทวณิชกานนท์ |
Advisors: | อัครินทร์ ไพบูลย์พานิช |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี |
Advisor's Email: | Akarin.P@chula.ac.th,akarin@cbs.chula.ac.th |
Issue Date: | 2558 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของวิธีการระบุค่าพารามิเตอร์ Eps ในเทคนิคการจัดกลุ่มแบบ DBSCAN ซึ่งวิธีที่ใช้ในการเปรียบเทียบมี 11 วิธี ได้แก่ วิธีของ Daszykowski วิธี mean วิธี median วิธี P75 วิธี P95 วิธีของ Xia วิธีที่ประยุกต์จากวิธีของ Xia (Xia mean Xia median Xia P75 และ Xia P95) และวิธีของ Karami โดยพิจารณาประสิทธิภาพกับข้อมูล 2 มิติ ซึ่งเป็นข้อมูลที่มีการแจกแจงไม่ปกติ 4 รูปแบบ ได้แก่ ข้อมูลที่รูปร่างและจำนวนตัวอย่างในแต่ละกลุ่มหลากหลาย ข้อมูลวงแหวนรูปแบบที่ 1 ข้อมูลวงแหวนรูปแบบที่ 2 และข้อมูลมีลักษณะเป็นมุม และข้อมูลที่มีการแจกแจงปกติ 24 รูปแบบ ผู้วิจัยใช้เกณฑ์วัดประสิทธิภาพการวิเคราะห์กลุ่มที่ประยุกต์มาจากค่า purity เรียกว่า modified purity ในการเปรียบเทียบประสิทธิภาพการจัดกลุ่มของ 11 วิธีดังกล่าว ผลการศึกษาพบว่าทุกชุดข้อมูลจะมีวิธีที่เหมาะสมแตกต่างกันตามช่วงของ MinPts ข้อมูลที่รูปร่างและจำนวนตัวอย่างในแต่ละกลุ่มหลากหลาย วิธีการที่เหมาะสมคือวิธี Daszykowski วิธี Karami และวิธี P95 ส่วนข้อมูลวงแหวนรูปแบบที่ 1 และรูปแบบที่ 2 ทุกวิธีการเหมาะสมแต่แตกต่างกันตามช่วงของ MinPts ส่วนข้อมูลมีลักษณะมุม วิธีการที่เหมาะสมคือวิธี Daszykowski วิธี Karami วิธี P95 และวิธี Xia P95 นอกจากนี้ข้อมูลที่มีการแจกแจงปกติ วิธีการที่เหมาะสมคือ K-means นอกจากนี้เมื่อตรวจสอบผลวิธีการคำนวณค่า MinPts จากวิธี Daszykowski พบว่าสำหรับข้อมูลที่รูปร่างและจำนวนตัวอย่างในแต่ละกลุ่มไม่เท่ากัน เมื่อใช้ค่า MinPts ที่ได้จากวิธี Daszykowski มีวิธีที่เหมาะสมได้แก่ P75 และ Xia P75 แต่สำหรับข้อมูลวงแหวนรูปแบบที่ 1 ข้อมูลวงแหวนรูปแบบที่ 2 และข้อมูลมีลักษณะเป็นมุม เมื่อใช้ค่า MinPts ที่ได้จากวิธี Daszykowski พบว่าผลการจัดกลุ่ม DBSCAN ไม่เหมาะสม ส่วนข้อมูลที่มีการแจกแจงปกติ 2 ตัวแปร พบว่าโดยส่วนใหญ่วิธีระบุค่าพารามิเตอร์ Eps ที่เหมาะสมได้แก่วิธี mean และ Xia mean อย่างไรก็ตามผลการจัดกลุ่ม DBSCAN ก็ยังไม่เหมาะสมเท่ากับวิธี K-means |
Other Abstract: | The purpose of this research is to compare the performances of 11 Eps identification methods in DBSCAN algorithm. The 11 methods are the Daszykowski method, the mean method, the median method, the P75 method, the P95 method, the method of Xia, the modified method of Xia (Xia mean, Xia median, Xia P75 and Xia P95), and the method of Karami. We apply these methods to 4 different simulated 2 dimensional data sets: one with complex shapes, where the shapes and number of samples in each group are different, ring data type I, ring data type II and corner data, and 24 data sets generated from bivariate normal distributions. We use “modified purity” adapted from purity as a performance measure. The result shows that for all data sets, there are some proper methods at different range of MinPts. For the data with different shapes and sizes, the preferred approach is the method of Daszykowski, the method of Karami and the method of P95. For ring data type I and II, all methods are suitable but differ according range of MinPts. For corner data, the proper approach is the method of Daszykowski, the method of Karami, the method of P95 and the method of Xia P95. For normal distributed data, the proper approach is the method of K-means. Moreover, when calculating the MinPts from Daszykowski method found for the data with different shapes and sizes, the preferred approaches are the method of P75 and the method of Xia P75. But for ring data type I, ring data type II and corner data, the MinPts from Daszykowski method does not produce clustering that fits the data. Furthermore, for bivariate normal data, the preferred Eps identification methods are the method of mean and the method of Xia mean. However, the results of DBSCAN clustering are inferior to K-means. |
Description: | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2558 |
Degree Name: | วิทยาศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | สถิติ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/50395 |
Type: | Thesis |
Appears in Collections: | Acctn - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
5681581526.pdf | 16.4 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.