Abstract:
Regularization เป็นวิธีการป้องกันปัญหา overfitting ด้วยการเพิ่มฟังก์ชันการลงโทษไปในตัวแบบเพื่อให้เกิดการคัดกรองตัวแปรเข้าสู่ตัวแบบ งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบประสิทธิภาพของวิธีการคัดกรองตัวแปรสำหรับการวิเคราะห์การถดถอยโลจิสติกในข้อมูลที่มีมิติสูง ด้วยการใช้ฟังก์ชันการลงโทษในรูปแบบ (1) L0-regularization (2) L1-regularization (3) L0L2-regularization การวิจัยนี้ใช้การจำลองข้อมูลเพื่อทำการทดสอบ 18 กรณี โดยกำหนดค่าที่ต่างกันประกอบด้วย จำนวนตัวแปรอิสระมีจำนวน 200, 500 และ 1000 ตัวแปร ความสัมพันธ์ของตัวแปรอิสระมีค่าเท่ากับ 0, 0.5 และ 0.9 อัตราส่วนสัญญาณต่อสัญญาณรบกวนมีค่าเท่ากับ 1 และ 6 โดยจำลองข้อมูลแต่ละกรณีจำนวน 100 ชุด ในการศึกษานี้มุ่งเน้นที่การเปรียบเทียบประสิทธิภาพในการคัดกรองตัวแปรของตัวแบบ และประสิทธิภาพในการทำนายของตัวแบบ ซึ่งเปรียบเทียบประสิทธิภาพในแต่ละวิธีด้วย ความผิดพลาดในการตรวจจับเชิงบวก ค่าเฉลี่ยแบบฮาร์โมนิคของค่าความแม่นยำและค่าความไว และ พื้นที่ใต้เส้นโค้ง จากการศึกษาพบว่าวิธี L0 มีความแม่นยำในการคัดกรองตัวแปรมากที่สุดเมื่อพิจารณาด้วยความผิดพลาดในการตรวจจับเชิงบวก เมื่อพิจารณาด้วยค่าเฉลี่ยแบบฮาร์โมนิคของค่าความแม่นยำและค่าความไว พบว่าวิธี L1 และ L0L2 มีประสิทธิภาพในการคัดกรองตัวแปรใกล้เคียงกัน แต่วิธี L0L2 จะมีประสิทธิภาพสูงกว่าเมื่อความสัมพันธ์ระหว่างตัวแปรอิสระมีค่าสูง และเมื่อพิจารณาประสิทธิภาพในการทำนายของตัวแบบด้วยพื้นที่ใต้เส้นโค้ง พบว่าวิธี L1 จะมีประสิทธิภาพสูงที่สุดในทุกกรณี