DSpace Repository

การเปรียบเทียบวิธีการคัดกรองตัวแปรสำหรับวิธีการแบ่งข้อมูลตัวอย่างหลายครั้งในการหาค่าพี-แวลูสำหรับข้อมูลที่มีมิติสูง

Show simple item record

dc.contributor.advisor วิฐรา พึ่งพาพงศ์ en_US
dc.contributor.author ศุภวัฒน์ อังคะสี en_US
dc.contributor.other จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี en_US
dc.date.accessioned 2015-06-24T06:45:56Z
dc.date.available 2015-06-24T06:45:56Z
dc.date.issued 2556 en_US
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/43951
dc.description วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2556 en_US
dc.description.abstract งานวิจัยฉบับนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการคัดกรองตัวแปรจากวิธี Lasso, Adaptive Lasso, Elastic net และ SCAD สำหรับขั้นตอนวิธีแบ่งข้อมูลหลายครั้ง (Multi - Split) เพื่อหาค่า p-value ในการวิเคราะห์ความถดถอยของข้อมูลที่มีมิติสูง โดยวิเคราะห์จากจำนวนสัมประสิทธิ์ของตัวแปรอิสระที่ไม่เท่ากับ 0 ความผิดพลาดเชิงบวกและความผิดพลาดเชิงลบภายหลังจากควบคุมด้วยวิธี False Discovery Rate (FDR) โดยมีการจำลองข้อมูลที่มีขอบเขตต่างกัน โดยมีขนาดตัวอย่างเท่ากับ 10, 100 และ 200 จำนวนสัมประสิทธิ์ที่ไม่เท่ากับ 0 เป็นร้อยละ 10, 20, 50 ของขนาดตัวอย่าง และความสัมพันธ์ของตัวแปรอิสระเป็น 0, 0.5 และ 0.9 โดยทำการจำลองข้อมูลและวิเคราะห์ผลด้วยโปรแกรม R 3.0.3 ทั้งนี้จะใช้ค่าความผิดพลาดในการตรวจจับเชิงบวก (False Positive : FP) ความผิดพลาดในการตรวจจับเชิงลบ (False Negative : FN) และจำนวนของสัมประสิทธิ์ของตัวแปรอิสระที่มีค่าไม่เท่ากับ 0 จากการทดสอบสมมติฐาน เมื่อควบคุม FDR เป็นเครื่องมือในการเปรียบเทียบและการวัดประสิทธิภาพ การศึกษาภายใต้ขอบเขตดังกล่าวผลปรากฏว่ากรณีที่ขนาดตัวอย่างเท่ากับ 10 พิจารณาจากจำนวนของสัมประสิทธิ์ของตัวแปรอิสระที่มีค่าไม่เท่ากับ 0 จากการทดสอบสมมติฐาน เมื่อควบคุม FDR ,ค่าของ FP และ FN ที่ตารางแสดงจำนวนของสัมประสิทธิ์ของตัวแปรอิสระที่มีค่าไม่เท่ากับ 0 จากการทดสอบสมมติฐาน เมื่อควบคุม FDR และค่าของ FN จะไปในทิศทางเดียวกัน นั่นคือการคัดกรองตัวแปรด้วยวิธี Adaptive Lasso จะเหมาะสมมากที่สุด แต่จากตาราง FP จะได้วิธี Lasso ที่เหมาะสมแต่ค่าที่ได้ยังไม่ชัดเจน ในกรณีที่ขนาดตัวอย่างเท่ากับ 100 และ 200 การคัดกรองตัวแปรด้วยวิธี Adaptive Lasso และวิธี SCAD จะเหมาะสมมากที่สุด แต่จากตาราง FP จะได้วิธี Lasso และวิธี EN ที่เหมาะสม นั่นแสดงให้เห็นว่าวิธี Lasso และวิธี EN มีประสิทธิภาพในการคัดกรองตัวแปรน้อยกว่าวิธี Adaptive Lasso และวิธี SCAD en_US
dc.description.abstractalternative This research is aimed to compare the screening variables of Lasso, Adaptive Lasso, Elastic net and SCAD for the Multi - Split to find p-values in the regression analysis for high dimensional data. To analyze from the number of non-zero coefficients, false positives and false negatives after controlling False Discovery Rate (FDR) were collected and analyzed based on simulated data. The sample size are 10, 100 and 200. The numbers of non-zero coefficients is not equal to 0 are set to 10, 20 and 50 percent of sample size and the correlation among independent variables are 0, 0.5 and 0.9. he simulating and analyzing data in this study used the R 3.0.3 . It uses The False Positive (FP), The False Negative (FN) and the number of coefficients of independent variables is not equal to 0 by hypothesis testing after control by FDR., which is not equal to 0, that use as a tool to compare and performance measurement. The study showed that within the scope of the case considering the sample size of 10 .The tables of the number of coefficients of independent variables is not equal to 0 by hypothesis testing after control by FDR, FP and FN shows the value of the number of coefficients of independent variables is not equal to 0 by hypothesis testing after control by FDR and FN are go to the same direction. That is data screening by Adaptive Lasso are the most appropriate. On the other hand, in the table of FP data screening by Lasso, this will get to the right value but the value will not very clear. In case of the sample size are 100 and 200, the data screening by Adaptive Lasso and SCAD are the most appropriate but from the table of FP will approach Lasso and appropriate EN, which showed that Lasso and EN are effective to the data screening,that is less than Adaptive Lasso and SCAD. en_US
dc.language.iso th en_US
dc.publisher จุฬาลงกรณ์มหาวิทยาลัย en_US
dc.relation.uri http://doi.org/10.14457/CU.the.2013.1404
dc.rights จุฬาลงกรณ์มหาวิทยาลัย en_US
dc.subject สถิติวิเคราะห์
dc.subject ตัวแปร (คณิตศาสตร์)
dc.subject การวิเคราะห์การถดถอย
dc.subject Variables (Mathematics)
dc.subject Regression analysis
dc.title การเปรียบเทียบวิธีการคัดกรองตัวแปรสำหรับวิธีการแบ่งข้อมูลตัวอย่างหลายครั้งในการหาค่าพี-แวลูสำหรับข้อมูลที่มีมิติสูง en_US
dc.title.alternative COMPARISON OF THE VARIABLES SCREENING METHODS FOR MULTI – SAMPLE SPLIT TO FIND P – VALUES FOR HIGH – DIMENSIONAL DATA en_US
dc.type Thesis en_US
dc.degree.name วิทยาศาสตรมหาบัณฑิต en_US
dc.degree.level ปริญญาโท en_US
dc.degree.discipline สถิติ en_US
dc.degree.grantor จุฬาลงกรณ์มหาวิทยาลัย en_US
dc.email.advisor vitara@cbs.chula.ac.th en_US
dc.identifier.DOI 10.14457/CU.the.2013.1404


Files in this item

This item appears in the following Collection(s)

Show simple item record