Abstract:
งานวิจัยฉบับนี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการคัดกรองตัวแปรจากวิธี Lasso, Adaptive Lasso, Elastic net และ SCAD สำหรับขั้นตอนวิธีแบ่งข้อมูลหลายครั้ง (Multi - Split) เพื่อหาค่า p-value ในการวิเคราะห์ความถดถอยของข้อมูลที่มีมิติสูง โดยวิเคราะห์จากจำนวนสัมประสิทธิ์ของตัวแปรอิสระที่ไม่เท่ากับ 0 ความผิดพลาดเชิงบวกและความผิดพลาดเชิงลบภายหลังจากควบคุมด้วยวิธี False Discovery Rate (FDR) โดยมีการจำลองข้อมูลที่มีขอบเขตต่างกัน โดยมีขนาดตัวอย่างเท่ากับ 10, 100 และ 200 จำนวนสัมประสิทธิ์ที่ไม่เท่ากับ 0 เป็นร้อยละ 10, 20, 50 ของขนาดตัวอย่าง และความสัมพันธ์ของตัวแปรอิสระเป็น 0, 0.5 และ 0.9 โดยทำการจำลองข้อมูลและวิเคราะห์ผลด้วยโปรแกรม R 3.0.3 ทั้งนี้จะใช้ค่าความผิดพลาดในการตรวจจับเชิงบวก (False Positive : FP) ความผิดพลาดในการตรวจจับเชิงลบ (False Negative : FN) และจำนวนของสัมประสิทธิ์ของตัวแปรอิสระที่มีค่าไม่เท่ากับ 0 จากการทดสอบสมมติฐาน เมื่อควบคุม FDR เป็นเครื่องมือในการเปรียบเทียบและการวัดประสิทธิภาพ
การศึกษาภายใต้ขอบเขตดังกล่าวผลปรากฏว่ากรณีที่ขนาดตัวอย่างเท่ากับ 10 พิจารณาจากจำนวนของสัมประสิทธิ์ของตัวแปรอิสระที่มีค่าไม่เท่ากับ 0 จากการทดสอบสมมติฐาน เมื่อควบคุม FDR ,ค่าของ FP และ FN ที่ตารางแสดงจำนวนของสัมประสิทธิ์ของตัวแปรอิสระที่มีค่าไม่เท่ากับ 0 จากการทดสอบสมมติฐาน เมื่อควบคุม FDR และค่าของ FN จะไปในทิศทางเดียวกัน นั่นคือการคัดกรองตัวแปรด้วยวิธี Adaptive Lasso จะเหมาะสมมากที่สุด แต่จากตาราง FP จะได้วิธี Lasso ที่เหมาะสมแต่ค่าที่ได้ยังไม่ชัดเจน ในกรณีที่ขนาดตัวอย่างเท่ากับ 100 และ 200 การคัดกรองตัวแปรด้วยวิธี Adaptive Lasso และวิธี SCAD จะเหมาะสมมากที่สุด แต่จากตาราง FP จะได้วิธี Lasso และวิธี EN ที่เหมาะสม นั่นแสดงให้เห็นว่าวิธี Lasso และวิธี EN มีประสิทธิภาพในการคัดกรองตัวแปรน้อยกว่าวิธี Adaptive Lasso และวิธี SCAD