Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/46264
Title: การเปรียบเทียบวิธีคัดกรองตัวแปรสำหรับการทดสอบกลุ่มของสัมประสิทธิ์การถดถอยที่มีมิติสูงแบบเป็นลำดับชั้น
Other Titles: A COMPARISON OF VARIABLE SCREENING METHODS FOR HIERARCHICAL TESTING OF HIGH-DIMENSIONAL REGRESSION COEFFICIENTS
Authors: สวรรยา ภู่เงิน
Advisors: วิฐรา พึ่งพาพงศ์
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี
Advisor's Email: Vitara.P@Chula.ac.th,vitara@cbs.chula.ac.th
Subjects: การวิเคราะห์การถดถอย
Regression analysis
Hierarchical clustering (Cluster analysis)
Issue Date: 2557
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: งานวิจัยฉบับนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการคัดกรองตัวแปรอิสระจากวิธี Lasso, Adaptive Lasso และ Elastic Net สำหรับการทดสอบกลุ่มของสัมประสิทธิ์การถดถอยที่มีมิติสูง โดยใช้เทคนิคการจัดกลุ่มแบบเป็นลำดับชั้น ในการจัดกลุ่มตัวแปรตามความสัมพันธ์ของตัวแปรอิสระ จากนั้นจึงใช้วิธีการแบ่งข้อมูลแบบสุ่มหลายๆครั้ง เพื่อหาค่า p-value ของกลุ่มสัมประสิทธิ์การถดถอยแต่ละกลุ่ม โดยการศึกษานี้จะเปรียบเทียบประสิทธิภาพของวิธีคัดกรองตัวแปรอิสระจากการจำลองข้อมูลและใช้ข้อมูลจริงที่มีขอบเขตต่างๆกัน โดยในส่วนของข้อมูลจำลองมีอัตราส่วนของขนาดตัวอย่างต่อจำนวนตัวแปรเท่ากับ 100: 500 และ 100:1000 และความสัมพันธ์ของตัวแปรอิสระเป็น 0.0 , 0.5 และ 0.9 ขณะที่ในส่วนของข้อมูลจริงจะมีความสัมพันธ์ของตัวแปรแปรอิสระเป็น 2 แบบคือมีความสัมพันธ์แบบปกติและมีความสัมพันธ์กันสูง ทั้งนี้จะใช้อัตราความผิดพลาดรวม และอำนาจการทดสอบเป็นเครื่องมือในการเปรียบเทียบและการวัดประสิทธิภาพ การศึกษาภายใต้ขอบเขตดังกล่าวผลปรากฏว่าการคัดกรองตัวแปรทั้ง 3 วิธีให้อำนาจการทดสอบต่ำ ซึ่งเมื่อเปรียบเทียบการคัดกรอง 3 วิธีพบว่า วิธี Lasso มีอำนาจการทดสอบมากที่สุด รองลงมาคือวิธี Adaptive Lasso และ วิธี Elastic Net ตามลำดับ แต่เมื่อพิจารณาถึงอัตราความผิดพลาดรวม พบว่าวิธี Adaptive Lasso และวิธี Elastic Net มีค่าต่ำที่สุด
Other Abstract: This research is aimed to compare the variable screening methods including Lasso, Adaptive Lasso and Elastic Net for hierarchical testing of high-dimensional regression coefficients. Hierarchical Clustering is employed to group independents variables based on their correlations. Multi-split method is then used to obtain p-values for each group of regression coefficients. Simulated data and real data are carried out to compare the performance of variable screening methods. For simulated data, we consider the case when ratios of the sample size and number of independent variables are 100:500 and 100:1000 and the correlation among independent variables are 0.0 , 0.5 and 0.9. For real data sets, normal correlation and high correlation among independent variables are considered here. Family wise error rate and power of the test are computed to compare the performance of variable screening methods. In this study, we found that all three screening methods have low power. Furthermore, Lasso has the largest power followed by Adaptive Lasso and Elastic Net respectively. However, Adaptive Lasso and Elastic Net has lower family wise error rate than Lasso.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2557
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: สถิติ
URI: http://cuir.car.chula.ac.th/handle/123456789/46264
URI: http://doi.org/10.14457/CU.the.2014.1131
metadata.dc.identifier.DOI: 10.14457/CU.the.2014.1131
Type: Thesis
Appears in Collections:Acctn - Theses

Files in This Item:
File Description SizeFormat 
5681598226.pdf2.42 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.