Abstract:
ข้อมูลสูญหายไปในข้อมูลอนุกรมเวลาเป็นปัญหาที่พบบ่อยในการวิเคราะห์ทางสถิติ ซึ่งอาจเกิดขึ้นเนื่องจากสาเหตุหลายๆประการเพื่อที่จะประมาณค่าสูญหายให้เกิดความถูกต้องแม่นยำนั้นเป็นสิ่งจำเป็นที่จะต้องเลือกวิธีการที่เหมาะสมซึ่งขึ้นอยู่กับชนิดและกลไกที่ทำให้เกิดค่าสูญหาย เพื่อทำให้ค่าประมาณที่ได้ดีที่สุดของค่าสูญหาย ในการศึกษาครั้งนี้ได้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการใส่ค่าสูญหายสำหรับการวิเคราะห์อนุกรมเวลาที่มีข้อมูลสูญหาย การศึกษานี้ ใช้วิธี Mean Imputation วิธี LOCF และวิธี EM Algorithm ข้อมูลที่ใช้ในการศึกษาได้จากการจำลองข้อมูล โดยมีสัดส่วนการสูญหาย 3 ระดับ คือ 10%, 20% และ 30% มีระดับการสูญหายแบบนอนอิกนอร์เรเบิล 3 ระดับ คือ ไม่มี ปานกลาง และสูง จากการเปรียบเทียบแต่ละวิธีการโดยใช้ค่าเฉลี่ยของค่าเฉลี่ยค่าสัมบูรณ์เปอร์เซ็นต์ความคลาดเคลื่อน (Average Mean Absolute Percentage Error : AMAPE) พบว่า i) สำหรับตัวแบบAR(1) วิธีการใส่ค่าสูญหายวิธี Mean Imputation จะมีประสิทธิภาพดีที่สุดในกรณีที่ขนาดตัวอย่างมีขนาดเล็ก (n=50,100) และพารามิเตอร์แสดงค่าของกระบวนการถดถอยในตัวอันดับที่ 1 เป็น 0.2 ii) วิธี EM Algorithm มีประสิทธิภาพดีที่สุดในกรณีที่พารามิเตอร์แสดงค่าของกระบวนการถดถอยในตัวอันดับที่ 1 เป็น 0.5 iii) วิธี LOCF มีประสิทธิภาพดีที่สุดในกรณีที่ขนาดตัวอย่างมีขนาดเล็ก (n=50,100) และพารามิเตอร์แสดงค่าของกระบวนการถดถอยในตัวอันดับที่ 1 เป็น 0.8 iv) สำหรับตัวแบบAR(2) วิธีการใส่ค่าสูญหายวิธี Mean Imputation จะมีประสิทธิภาพดีที่สุดในกรณีที่พารามิเตอร์แสดงค่าของกระบวนการถดถอยในตัวอันดับที่ 1 และ2 เป็น 0.1 v) วิธีการใส่ค่าสูญหายวิธี Mean Imputation จะมีประสิทธิภาพดีที่สุดในกรณีที่ขนาดตัวอย่างมีขนาดเล็ก (n=50) และ ในกรณีที่พารามิเตอร์แสดงค่าของกระบวนการถดถอยในตัวอันดับที่ 1 และ2 เป็น 0.25 vi) วิธีการใส่ค่าสูญหายวิธี EM Algorithmจะมีประสิทธิภาพดีที่สุดในกรณีที่พารามิเตอร์แสดงค่าของกระบวนการถดถอยในตัวอันดับที่ 1 และ2 เป็น 0.4