Abstract:
งานวิจัยฉบับนี้มีวัตถุประสงค์เพื่อศึกษากระบวนการทำงานของการจำแนกกลุ่มข้อมูลโดยใช้อัลกอริทึม MODIFIED REGRESSION TREE (MRT) ซึ่งอัลกอริทึมนี้ได้ถูกประยุกต์มาจากการวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย (Simple Regression Analysis) และการวิเคราะห์การถดถอยเชิงเส้นพหุ (Multiple Regression Analysis) จะทำการจำลองข้อมูลในแต่ละกรณีโดยใช้โปรแกรม R ภายใต้ขนาดตัวอย่างจำนวน 200, 600 และ 1,800 จำนวน ตัวแปรอิสระจำนวน 2, 3 และ 4 ตัวแปร และค่าความแปรปรวนของความคลาดเคลื่อนมีขนาด 500, 10,000 และ 40,000 โดยที่มีระดับนัยสำคัญคือ 0.05 และ 0.10 อัลกอริทึมนี้มีกระบวนการคล้ายกับการคัดเลือกแบบไปข้างหน้าและมีขั้นตอนการทำงาน 2 ขั้นตอนคือการคัดเลือกตัวแปรอิสระและการแยก จะคัดเลือกตัวแปรอิสระที่มีค่า p-value น้อยที่สุดจากตัวแปรอิสระทั้งหมด จากนั้นนำมาเปรียบเทียบกับระดับนัยสำคัญที่กำหนดถ้าค่าของ p-value ของตัวแปรอิสระมีค่าน้อยกว่าก็จะนำตัวแปรอิสระตัวนั้นเข้ามาจำแนกกลุ่มโดยใช้ค่าเฉลี่ยเลขคณิตแต่ถ้าค่า p-value ของตัวแปรอิสระมีค่ามากกว่าจะหยุดกระบวนการ คัดเลือกตัวแปรอิสระตัวถัดมาภายในกลุ่มนั้นๆ จนกว่าจะไม่มีตัวแปรอิสระใดที่ทำการจำแนกได้แล้วจึงจะหยุดกระบวนการ จากนั้นจะทำการวัดประสิทธิภาพโดยวัดร้อยละความถูกต้อง จากการศึกษาพบว่าขนาดตัวอย่าง ระดับนัยสำคัญ และจำนวนของตัวแปรอิสระต่างก็ส่งผลให้ร้อยละความถูกต้องมีค่าเพิ่มขึ้นหรือไม่ก็ลดลง ร้อยละความถูกต้องมีแนวโน้มเพิ่มมากขึ้นเมื่อกำหนดขนาดตัวอย่างให้มีจำนวนมากขึ้น แต่ร้อยละความถูกต้องมีแนวโน้มลดลงเมื่อเพิ่มระดับนัยสำคัญและจำนวนของตัวแปรอิสระ ส่วนค่าความแปรปรวนของความคลาดเคลื่อนนั้นไม่ส่งผลต่อร้อยละความถูกต้อง