Abstract:
งานวิจัยครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าพารามิเตอร์สำหรับข้อมูลที่มีมิติสูงด้วยทั้งหมด 5 วิธี ได้แก่ วิธี L0Learn, L0L2Learn, L1, A-L1 และวิธี A-L1L2 โดยการเปรียบเทียบประสิทธิภาพจะเปรียบเทียบใน 2 ด้าน คือ 1) เปรียบเทียบประสิทธิภาพด้านการพยากรณ์ ซึ่งวัดจากค่าคลาดเคลื่อนการทำนาย (MSE) และ 2) ความถูกต้องในการคัดเลือกตัวแปรอิสระเข้าสู่ตัวแบบ ซึ่งพิจารณาจากของค่า Precision Recall และค่า AUC ข้อมูลที่มีมิติสูงที่ใช้ในการศึกษาครั้งนี้ได้จากการจำลอง โดยกำหนดให้ในแต่ละชุดข้อมูลประกอบด้วยจำนวนค่าสังเกต 100 ค่าสังเกต (n = 100) และมีตัวแปรอิสระจำนวน 100 ตัว (p = 1000) โดยตัวแปรอิสระมีการแจกแจงแบบปรกติหลายตัวแปรซึ่งมีความสัมพันธ์กันแบบยกกำลัง (Exponential Correlation) 3 ระดับคือ 0, 0.5 และ 0.9 ค่าความคลาดเคลื่อนสุ่มขึ้นอยู่กับอัตราส่วนสัญญาณต่อสัญญาณรบกวน (SNR) ซึ่งมี 6 ระดับคือ 0.1, 0.5, 1, 5, 10, และ 20 โดยจำลองข้อมูลจำนวน 100 ชุดในแต่ละสถานการณ์ จากการวัดประสิทธิภาพจากค่าเฉลี่ยของข้อมูลทั้ง 100 ชุด ผลการเปรียบเทียบประสิทธิภาพด้านการพยากรณ์พบว่า เมื่อข้อมูลมีค่า SNR ต่ำและตัวแปรอิสระมีความสัมพันธ์กันน้อยถึงปานกลาง วิธี L1 จะมีประสิทธิภาพสูงที่สุด ตามด้วยวิธี L0L2Leran วิธี L0Learn วิธี A-L1L2 และวิธี A-L1 ตามลำดับ แต่เมื่อข้อมูลมีค่า SNR เพิ่มสูงขึ้นและในขณะเดียวกันตัวแปรอิสระมีความสัมพันธ์กันมากขึ้นวิธี A-L1 และวิธี A-L1L2 จะมีประสิทธิภาพสูงที่สุด ตามด้วยวิธี L1 วิธี L0L2Leran วิธี L0Learn ตามลำดับ ส่วนผลการเปรียบเทียบประสิทธิภาพด้านการคัดเลือกตัวแปรเข้าสู่ตัวแบบ เมื่อพิจารณาจากค่าเฉลี่ยของค่า Precision วิธี L0Learn และวิธี L0L2Learn มีประสิทธิภาพมากกว่าวิธีอื่น ๆ และเมื่อพิจารณาจากค่าเฉลี่ยของค่า Recall ในกรณีข้อมูลมีค่า SNR ต่ำวิธี A-L1 และวิธี A-L1L2 จะมีประสิทธิภาพมากที่สุด รองลงมาคือวิธี L0L2Learn วิธี L1 และวิธี L0Learn ตามลำดับ แต่เมื่อข้อมูลมีค่า SNR มากขึ้นและตัวแปรอิสระมีความสัมพันธ์กันมากขึ้น วิธี L1 มีประสิทธิภาพสูงที่สุดเทียบเท่ากับวิธี A-L1 และวิธี A-L1L2 และเมื่อพิจารณาจากค่าเฉลี่ยของค่า AUC กรณีข้อมูลมีค่า SNR ต่ำและตัวแปรอิสระมีความสัมพันธ์กันน้อย วิธี L0L2Learn วิธี L1 วิธี A-L1 และวิธี A-L1L2 จะมีประสิทธิภาพใกล้เคียงกันและมีประสิทธิภาพมากกว่าวิธี L0Learn แต่เมื่อข้อมูลมีค่า SNR มากขึ้นและตัวแปรอิสระมีความสัมพันธ์กันมากขึ้นวิธี L0L2Learn และวิธี A-L1L2 จะมีประสิทธิภาพดีกว่าวิธีอื่น ๆ นอกจากนี้ยังพบว่าวิธี L0Learn และวิธี L0L2Learn จะให้ตัวแบบที่มีขนาดเล็กส่งผลให้ตัวแบบมีค่า Precision โดยเฉลี่ยสูง และมีข้อดีคือตัวแบบอธิบายได้ง่าย ในทางตรงกันข้ามวิธี L1 วิธี A-L1 และวิธี A-L1L2 จะให้ตัวแบบที่มีขนาดใหญ่กว่าส่งผลให้มีค่า Recall โดยเฉลี่ยสูง แต่มีข้อจำกัดคือตัวแบบอธิบายได้ยาก