Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/36646
Title: การเปรียบเทียบวิธีการประมาณค่าสูญหายแบบนอนอิกนอร์เรเบิลในการวิเคราะห์การถดถอยเชิงเส้นพหุ
Other Titles: Comparison of the estimation methods for nonignorable missing data in multiple linear regression
Authors: อุษณีย์ วงศ์อามาตย์
Advisors: อนุภาพ สมบูรณ์สวัสดี
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี
Advisor's Email: Anupap.S@Chula.ac.th
Subjects: การประมาณค่าพารามิเตอร์
การวิเคราะห์การถดถอย
Parameter estimation
Regression analysis
Issue Date: 2555
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: ข้อมูลสูญหายเป็นปัญหาที่พบได้ทั่วไปในงานวิจัยทุกสาขา การสูญหายของข้อมูลที่มีความสัมพันธ์กับพารามิเตอร์อาจนำไปสู่ปัญหาที่ร้ายแรงในการวิเคราะห์ข้อมูล ซึ่งการสูญหายในลักษณะนี้เป็นการสูญหายแบบนอนอิกนอร์เรเบิล วิธีการหนึ่งที่ใช้แก้ไขปัญหาดังกล่าวคือการประมาณค่าที่สูญหายโดยวิธีการต่างๆ งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบวิธีการประมาณค่าสูญหายในการวิเคราะห์การถดถอยเชิงเส้นพหุ เมื่อข้อมูลตัวแปรตามมีการสูญหายแบบนอนอิกนอร์เรเบิล วิธีการประมาณค่าสูญหายที่ใช้ในงานการวิจัยนี้คือ วิธี EM Algorithm (EM) วิธี K-Nearest Neighbor Imputation (KNN) และวิธี Predictive Mean Matching Imputation (PMM) ข้อมูลที่ใช้ในการศึกษาได้จากการจำลองโดยมีสัดส่วนของการสูญหาย 3 ระดับคือ 10%, 20%, 30% และมีระดับของการสูญหายแบบนอนอิกนอร์เรเบิล 3 ระดับคือ ไม่มี, ปานกลาง, สูง จากการเปรียบเทียบค่าเฉลี่ยของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (average mean square error; AMSE) พบว่า i) วิธีการประมาณทุกวิธีสามารถประมาณได้ดีขึ้นเมื่อขนาดตัวอย่างมีขนาดใหญ่ขึ้น ii) วิธีการประมาณทุกวิธีประมาณได้แย่ลงเมื่อส่วนเบี่ยงเบนมาตรฐานของค่าความคลาดเคลื่อน สัดส่วนของการสูญหาย และ ระดับของการสูญหายแบบอิกนอร์เรเบิล มีค่าเพิ่มขึ้น iii) โดยรวมแล้วิธี EM ประมาณค่าได้ดีที่สุดเมื่อส่วนเบี่ยงเบนมาตรฐานของค่าความคลาดเคลื่อนมีค่าไม่สูง (10-30) และ iv) วิธี KNN ประมาณค่าได้ดีที่สุดเมื่อส่วนเบี่ยงเบนมาตรฐานของค่าความคลาดเคลื่อนมีค่าสูง (90)
Other Abstract: Problems of missing data are common in all fields of research. When the missingness of data depends on the parameters of interest, this could lead to serious problems. This type of missingness is called “nonignorable”. One remedy to deal with missing data is to estimate or to approximate the missing data by various methods. The purpose of this research is to study and to compare the estimation methods under multiple linear regression settings with nonignorable missing data on the dependent variables. The methods for estimating missing data are EM Algorithm (EM), K-Nearest Neighbor Imputation (KNN) and Predictive Mean Matching Imputation (PMM) method. Three levels of missing proportion of data of 10%, 20%, 30% and three levels of nonignorable missingness of none, medium, high are studied from the simulations. Based on the size of average mean square error (AMSE), the findings are the followings: i) all estimation methods perform better as the sample size increases, ii) all estimation methods perform worse as the standard deviation of errors, the missing proportion, or level of nonignorable missingness increase, iii) overall, EM method performs best when the standard deviation of errors are not high (10-30) and iv) KNN method performs best when the standard deviation is high (90).
Description: วิทยานิพนธ์ (สต.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2555
Degree Name: สถิติศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: สถิติ
URI: http://cuir.car.chula.ac.th/handle/123456789/36646
URI: http://doi.org/10.14457/CU.the.2012.1546
metadata.dc.identifier.DOI: 10.14457/CU.the.2012.1546
Type: Thesis
Appears in Collections:Acctn - Theses

Files in This Item:
File Description SizeFormat 
ausanee_wo.pdf2.04 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.