Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/50490
Title: Bi-orbital extreme pole clustering algorithm
Other Titles: ขั้นตอนวิธีการเกาะกลุ่มข้อมูลแบบขั้วสุดขีดทวิวงโคจร
Authors: Chalee Boonprasop
Advisors: Krung Sinapiromsaran
Other author: Chulalongkorn University. Faculty of Science
Advisor's Email: Krung.S@Chula.ac.th,Krung.S@gmail.com,krung.s@chula.ac.th
Subjects: Mathematics -- Data processing
Programming (Mathematics)
Linked data
Algorithms
คณิตศาสตร์ -- การประมวลผลข้อมูล
การโปรแกรมเชิงคณิตศาสตร์
ข้อมูลเชื่อมโยง
อัลกอริทึม
Issue Date: 2015
Publisher: Chulalongkorn University
Abstract: Knowledge discovery has been adopted widely in many fields. Clustering algorithm is a step that filters or partitions data into manageable sizes. B. Kaveelerdpotjana, et al. proposed a simple and efficient the half-orbital extreme pole clustering algorithm with only a single input parameter. The algorithm uses extreme poles and the core-vector to partition a dataset into bins along this vector. Because of its simplicity to split along the core-vector, some characteristics might be lost during the clustering process. In this thesis, Bi-orbital extreme pole clustering algorithm (BOEP) extracts the secondary information along the core-vector. BOEP uses the mean-shift smoothing algorithm in each bin to group instances. It links each group based on the distance from others. The connected groups are considered to belong to the same group. This process continues until all instances in the dataset are clustered. Two types of datasets are used to measure the performance of BOEP. The first type is the simulated multivariate normal distribution datasets of one, two, and three clusters with assigned target values. BOEP is able to classified instances statistical better than HOEP, especially in the case of two and three clusters using the paired t-tests. The second type is the UCI datasets, namely, IRIS, WINE, and E-COLI. BOEP is able to find a better separation between groups comparing with HOEP, k-mean, and DBSCAN using Have and Save as the performance measure.
Other Abstract: การค้นความรู้ถูกนำไปใช้อย่างแพร่หลายในหลายศาสตร์ ขั้นตอนวิธีการเกาะกลุ่มข้อมูลถือว่าเป็นขั้นสำคัญในการกรองหรือแบ่งกั้นข้อมูลให้อยู่ในขนาดที่สามารถจัดการได้ง่าย เบญจพรรณ กวีเลิศพจนา และคณะได้เสนอแนวทางอย่างง่ายและมีประสิทธิภาพ ที่เรียกว่าขั้นตอนวิธีการเกาะกลุ่มข้อมูลแบบขั้วสุดขีดครึ่งวงโคจร (HOEP) ด้วยพารามิเตอร์นำเข้าหนี่งค่าเท่านั้น ขั้นตอนวิธีนี้ใช้ขั้วสุดขีดและเวกเตอร์หลักในการแบ่งกั้นเซตข้อมูลเป็นช่องตามแนวเวกเตอร์นี้ เนื่องจากความง่ายของวิธีการแบ่งตามแนวเวกเตอร์ ส่งผลให้ข้อมูลอาจสูญเสียลักษณะเฉพาะในระหว่างขั้นตอนการเกาะกลุ่ม ดังนั้นวิทยานิพนธ์นี้จึงนำเสนอวิธีการเกาะกลุ่มแบบใหม่ชื่อว่า ขั้นตอนวิธีการเกาะกลุ่มข้อมูลทวิวงโคจร (BOEP) โดยจะใช้การดึงลักษณะเฉพาะของข้อมูลเพิ่มเติมในมิติที่สองตามแนวเวกเตอร์หลัก BOEP ใช้ขั้นตอนวิธีปรับเลื่อนค่าเฉลี่ยในแต่ละช่อง เพื่อเกาะกลุ่มตัวอย่าง BOEP เชื่อมกลุ่มตัวอย่างโดยใช้ระยะทางระหว่างกลุ่มอื่น กลุ่มที่เชื่อมกันจะถือว่าเป็นหนึ่งกลุ่ม กระบวนการนี้จะทำจนกระทั่งตัวอย่างทุกตัวในเซตข้อมูลรวมกลุ่ม เซตข้อมูลสองชนิตถูกใช้เพื่อวัดประสิทธิภาพของ BOEP เซตข้อมูลประเภทแรกสร้างขึ้นจากการจำลองเซตข้อมูลที่มีการกระจายแบบปกติพหุคูณของหนึ่ง สอง และสามกลุ่ม พร้อมค่าเป้าหมาย BOEP สามารถแบ่งกลุ่มได้ดีกว่า HOEP อย่างมีนัยสำคัญเชิงสถิติโดยเฉพาะอย่างยิ่งในกรณีของสองและสามกลุ่มโดยใช้การทดสอบทีแบบคู่ ข้อมูลประเภทที่สองเป็นข้อมูลมาจากฐานข้อมูล UCI ได้แก่ IRIS, WINE, และ E-COLI BOEP สามารถหาวิธีการแยกที่ดีกว่าเมื่อเทียบกับ HOEP, K-means, และ DBSCAN โดยใช้ Have และ Save เป็นตัววัดประสิทธิภาพ
Description: Thesis (M.Sc.)--Chulalongkorn University, 2015
Degree Name: Master of Science
Degree Level: Master's Degree
Degree Discipline: Applied Mathematics and Computational Science
URI: http://cuir.car.chula.ac.th/handle/123456789/50490
URI: http://doi.org/10.14457/CU.the.2015.497
metadata.dc.identifier.DOI: 10.14457/CU.the.2015.497
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
5771958023.pdf2.3 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.