Abstract:
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบแนวทางในการเลือกใช้วิธี Random Split และวิธีบูตสแตรปในการปรับค่า p-value ของสัมประสิทธิ์การถดถอยที่มีมิติสูง อีกทั้งเพื่อศึกษาและเปรียบเทียบประสิทธิภาพในการคัดเลือกตัวแปรระหว่างวิธี Random Split และวิธีบูตสแตรปในการปรับค่า p-value ของสัมประสิทธิ์การถดถอยที่มีมิติสูง ซึ่งเกณฑ์ที่ใช้ในการเปรียบเทียบ คือจำนวนความผิดพลาดในการตรวจจับเชิงบวก จำนวนความผิดพลาดในการตรวจจับเชิงลบ และจำนวนสัมประสิทธิ์การถดถอยที่ไม่เท่ากับศูนย์จากการทดสอบสมมติฐานของสัมประสิทธิ์แต่ละตัว โดยข้อมูลที่ใช้ในการศึกษาได้จากการจำลองข้อมูลโดยมีขนาดตัวอย่างต่อจำนวนตัวแปรอิสระเป็น 10:20, 10:50, 10:100, 100:200, 100:500, 100:1,000, 200:400, 200:1,000 และ 200:2,000 ตามลำดับด้วยจำนวนสัมประสิทธิ์จริงที่ไม่เท่ากับศูนย์ 0.1 เท่า, 0.25 เท่า และ 0.45 เท่าของขนาดตัวอย่างที่ระดับความสัมพันธ์ของตัวแปรอิสระเป็น 0, 0.5 และ 0.9
จากผลการศึกษาโดยเปรียบเทียบจำนวนความผิดพลาดในการตรวจจับเชิงบวก พบว่าการแบ่งข้อมูลด้วยวิธี Random Split มีประสิทธิภาพในการปรับค่า p-value ของสัมประสิทธิ์การถดถอยที่มีมิติสูงมากกว่าการแบ่งข้อมูลด้วยวิธีบูตสแตรป แต่ในแง่ของจำนวนความผิดพลาดในการตรวจจับเชิงลบและจำนวนสัมประสิทธิ์การถดถอยที่ไม่เท่ากับศูนย์จากการทดสอบสมมติฐานของสัมประสิทธิ์แต่ละตัว พบว่ากรณีส่วนใหญ่การแบ่งข้อมูลด้วยวิธีบูตสแตรปจะมีประสิทธิภาพในการปรับค่า p-value ของสัมประสิทธิ์การถดถอยที่มีมิติสูงมากกว่าการแบ่งข้อมูลด้วยวิธี Random Split