Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/46950
Title: Feature selection applicable to classification and clustering by the analysis of optical diffraction and entropy score discrimination
Other Titles: การคัดเลือกลักษณะเฉพาะที่สามารถใช้ได้กับการแยกประเภทและการจัดกลุ่มโดยการวิเคราะห์การแทรกสอดของแสงและค่าเอนโทรปีของการแยก
Authors: Praisan Padungweang
Advisors: Chidchanok Lursinsap
Khamron Sunat
Other author: Chulalongkorn University. Faculty of Science
Advisor's Email: Chidchanok.L@Chula.ac.th
No information provided
Subjects: Light
Cluster analysis
Algorithms
Entropy
แสง
การวิเคราะห์จัดกลุ่ม
อัลกอริทึม
เอนโทรปี
Issue Date: 2011
Publisher: Chulalongkorn University
Abstract: Knowing the actual relevant features of a given data set not only can speed up the learning processes of classification or clustering algorithm, but also induce the higher prediction accuracy. Truly relevant selected features can make the prediction accuracy achieve 100%. However, it is not an easy task to distinguish the relevant features from the noisy features. This is because the selected relevant features must preserve the actual distribution and topological structure of the data space regardless of the original features. Therefore, a new feature selection based on unsupervised clustering and measure is proposed. The features are rearranged based on their relevant scores. This technique is called filter technique. Our approach is based on the observation that in any dimension, the distribution of clusters is similar to the scattering distribution of light passing through a set of vertical slits. The discrimination of data distribution is re-examined and evaluated using a simple observation motivated by the concept of optics diffraction. A property of the Fourier transform of probability density distribution is used. It is hypothesized that the features with high discrimination score are the relevant features. The criterion and algorithm are, then, extended to deal with data orientation whose direction of data alignment is defined by performing the discrimination evaluation on the bases locating towards the direction of data orientation. Then, the discrimination score of original features are computed. The key contributions from this research are: (1) new filter technique for unsupervised feature selection based on optical discrimination analysis, (2) new scoring of the filter technique for unsupervised feature selection, and (3) feasible capability to select features in both supervised classification and unsupervised clustering applications. Comparing with Laplacian score, SVD-Entropy, and LLDA-RFE, our experimental results show the efficacy of the proposed approach.
Other Abstract: การรู้ลักษณะเฉพาะที่สำคัญแท้จริงของข้อมูลไม่เพียงแต่สามารถเพิ่มความเร็วในการเรียนรู้และการวิเคราะห์ข้อมูล แต่ยังทำให้ผลการเรียนรู้เหล่านั้นมีความถูกต้องมากยิ่งขึ้น ลักษณะเฉพาะที่สำคัญแท้จริงสามารถทำให้ผลการเรียนรู้มีความถูกต้องถึง 100% อย่างไรก็ตามการแยกลักษณะเฉพาะที่สำคัญนั้นไม่สามารถทำได้โดยง่าย ทั้งนี้เพราะว่าลักษณะเฉพาะที่เลือกมานั้นจะต้องคงไว้ซึ่งการกระจายตัวและโครงสร้างที่แท้จริงของข้อมูล ดังนั้นงานวิจัยนี้จึงได้นำเสนอวิธีการเลือกลักษณะเฉพาะแบบใหม่บนพื้นฐานของการจัดกลุ่มและการวัดแบบไม่มีผู้สอน โดยลักษณะเฉพาะจะถูกประเมินและเรียงลำดับใหม่ตามลำดับความสำคัญหรือเรียกอีกอย่างหนึ่งว่ากลวิธีการกรองลักษณะเฉพาะ ซึ่งเกิดจากการสังเกตการกระจายตัวของกลุ่มข้อมูลของแต่ละลักษณะเฉพาะ พบว่ามีความคล้ายกับการกระจายตัวของแสงที่ผ่านช่องเปิด การพิจารณาและประเมินลักษณะเฉพาะจึงเกิดจากแนวคิดของการเลี้ยวเบนของแสงผ่านช่องเปิด โดยใช้คุณสมบัติการแปลงฟูเรียร์ของความน่าจะเป็นของการกระจายตัวความหนาแน่น ซึ่งแนวคิดนี้เกิดจากสมมติฐานที่ว่าลักษณะเฉพาะที่มีการกระจายตัวของข้อมูลแสดงให้เห็นถึงการแยกสูงจะถือว่ามีความสำคัญ พร้อมทั้งได้พัฒนาให้สามารถประเมินลักษณะเฉพาะตามทิศทางการวางตัวของข้อมูล สิ่งที่ได้จากงานวิจัยครั้งนี้มีดังต่อไปนี้ (1) วิธีการใหม่ในการกรองลักษณะเฉพาะแบบไม่มีผู้สอนบนพื้นฐานของการวิเคราะห์การแยกเชิงแสง (2) วิธีการใหม่ในการให้คะแนนเทคนิคการกรองสำหรับการเลือกลักษณะเฉพาะที่ไม่มีการชี้แนะ และ (3) ความสามารถที่เหมาะกับการเลือกคุณสมบัติในงานประยุกต์เชิงแบ่งกลุ่มข้อมูลที่มีการชี้แนะและการจัดกลุ่มที่ไม่มีการชี้แนะ เมื่อเปรียบเทียบกับวิธี Laplacian score, SVD-Entropy และ LLDA-RFE ผลการทดลองแสดงให้เห็นถึงประสิทธิผลของวิธีที่นำเสนอ
Description: Thesis (Ph.D.)--Chulalongkorn University, 2011
Degree Name: Doctor of Philosophy
Degree Level: Doctoral Degree
Degree Discipline: Computer Science
URI: http://cuir.car.chula.ac.th/handle/123456789/46950
URI: http://doi.org/10.14457/CU.the.2011.132
metadata.dc.identifier.DOI: 10.14457/CU.the.2011.132
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
praisan_pa.pdf2.17 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.