Abstract:
งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของวิธีการระบุค่าพารามิเตอร์ Eps ในเทคนิคการจัดกลุ่มแบบ DBSCAN ซึ่งวิธีที่ใช้ในการเปรียบเทียบมี 11 วิธี ได้แก่ วิธีของ Daszykowski วิธี mean วิธี median วิธี P75 วิธี P95 วิธีของ Xia วิธีที่ประยุกต์จากวิธีของ Xia (Xia mean Xia median Xia P75 และ Xia P95) และวิธีของ Karami โดยพิจารณาประสิทธิภาพกับข้อมูล 2 มิติ ซึ่งเป็นข้อมูลที่มีการแจกแจงไม่ปกติ 4 รูปแบบ ได้แก่ ข้อมูลที่รูปร่างและจำนวนตัวอย่างในแต่ละกลุ่มหลากหลาย ข้อมูลวงแหวนรูปแบบที่ 1 ข้อมูลวงแหวนรูปแบบที่ 2 และข้อมูลมีลักษณะเป็นมุม และข้อมูลที่มีการแจกแจงปกติ 24 รูปแบบ ผู้วิจัยใช้เกณฑ์วัดประสิทธิภาพการวิเคราะห์กลุ่มที่ประยุกต์มาจากค่า purity เรียกว่า modified purity ในการเปรียบเทียบประสิทธิภาพการจัดกลุ่มของ 11 วิธีดังกล่าว ผลการศึกษาพบว่าทุกชุดข้อมูลจะมีวิธีที่เหมาะสมแตกต่างกันตามช่วงของ MinPts ข้อมูลที่รูปร่างและจำนวนตัวอย่างในแต่ละกลุ่มหลากหลาย วิธีการที่เหมาะสมคือวิธี Daszykowski วิธี Karami และวิธี P95 ส่วนข้อมูลวงแหวนรูปแบบที่ 1 และรูปแบบที่ 2 ทุกวิธีการเหมาะสมแต่แตกต่างกันตามช่วงของ MinPts ส่วนข้อมูลมีลักษณะมุม วิธีการที่เหมาะสมคือวิธี Daszykowski วิธี Karami วิธี P95 และวิธี Xia P95 นอกจากนี้ข้อมูลที่มีการแจกแจงปกติ วิธีการที่เหมาะสมคือ K-means นอกจากนี้เมื่อตรวจสอบผลวิธีการคำนวณค่า MinPts จากวิธี Daszykowski พบว่าสำหรับข้อมูลที่รูปร่างและจำนวนตัวอย่างในแต่ละกลุ่มไม่เท่ากัน เมื่อใช้ค่า MinPts ที่ได้จากวิธี Daszykowski มีวิธีที่เหมาะสมได้แก่ P75 และ Xia P75 แต่สำหรับข้อมูลวงแหวนรูปแบบที่ 1 ข้อมูลวงแหวนรูปแบบที่ 2 และข้อมูลมีลักษณะเป็นมุม เมื่อใช้ค่า MinPts ที่ได้จากวิธี Daszykowski พบว่าผลการจัดกลุ่ม DBSCAN ไม่เหมาะสม ส่วนข้อมูลที่มีการแจกแจงปกติ 2 ตัวแปร พบว่าโดยส่วนใหญ่วิธีระบุค่าพารามิเตอร์ Eps ที่เหมาะสมได้แก่วิธี mean และ Xia mean อย่างไรก็ตามผลการจัดกลุ่ม DBSCAN ก็ยังไม่เหมาะสมเท่ากับวิธี K-means