Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/30936
Title: | การเปรียบเทียบการประมาณค่าสัมประสิทธิ์การถดถอยพหุ โดยวิธีกำลังสอง น้อยที่สุด,วิธีริดจ์รีเกรสชันและวิธีที่ใช้หลักการของริดจ์ และสไตน์ในกรณีที่เกิดพหุสัมพันธ์ระหว่างตัวแปรอิสระ |
Other Titles: | A comparison among ordinary least squares, ridge regression, and ridge and stein methods in estimating multiple regression coefficients with multicollinearity |
Authors: | ธันยากร ต้นชลขันธ์ |
Advisors: | ธีระพร วีระถาวร |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. บัณฑิตวิทยาลัย |
Issue Date: | 2538 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบการประมาณค่าสัมประสิทธิ์การถดถอยพหุเมื่อเกิดพหุสัมพันธ์ระหว่างตัวแปรอิสระ โดยการเปรียบเทียบวิธีกำลังสองน้อยที่สุด (OLS) วิธีริดจ์รีเกรสชัน (RR) และวิธีที่ใช้หลักการของริดจ์และสไตน์ (RS) เกณฑ์การเปรียบเทียบ คือ เปอร์เซ็นต์อัตราส่วนของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง สำหรับการแจกแจงของค่าความคลาดเคลื่อนที่ศึกษามีดังนี้ การแจกแจงปกติที่ µ = 1, 𝛔 = 0.05, 0.10 และ 0.15 การแจกแจงปกติปลอมปนที่มีสเกลแฟคเตอร์ = 3 และ 10 เปอร์เซ็นต์การปลอมปน = 5 และ 10 และการแจกแจงลอกนอร์มอลซึ่งมี µ = 1, 𝛔² = 0.05, 0.30 และ 0.70 กล่าวคือค่าสัมประสิทธิ์การแปรผัน (C.V.) = 22%, 59% และ 100% ตามลำดับ ค่าสัมประสิทธิ์การถดถอยพหุที่ใช้ตอนเริ่มต้นได้จากเวกเตอร์เจาะจง (eigenvector) ซึ่งสอดคล้องกับค่าเจาะจง (eigenvalue) ที่ต่ำที่สุด ในกรณีที่จำนวนตัวแปรอิสระเท่ากับ 3 ได้กำหนดระดับความสัมพันธ์ระหว่างตัวแปรอิสระเป็น 3 ระดับคือ ระดับต่ำ = 0.10 และ 0.30 ระดับปานกลาง = 0.50 และ 0.70 และระดับสูง = 0.90 และ 0.99 ส่วนกรณีที่จำนวนตัวแปรอิสระเท่ากับ 5 ได้กำหนดระดับความสัมพันธ์ระหว่างตัวแปรอิสระเป็น 3 ระดับคือ ระดับต่ำ = (0.10, 0.10) และ (0.30, 0.30) ระดับปานกลาง = (0.50, 0.50) และ (0.70, 0.70) และระดับสูง = (0.90, 0.09) และ (0.99, 0.99) ขนาดตัวอย่างที่ศึกษา = 30, 50 และ 100 ในการวิจัยนี้ได้ทำการจำลองเหตุการณ์ต่างๆ ด้วยเครื่องคอมพิวเตอร์โดยใช้เทคนิคมอนติคาร์โลและกระทำซ้ำ 500 ครั้งในแต่ละกรณี เราสามารถสรุปผลการเปรียบเทียบเปอร์เซ็นต์อัตราส่วนของค่าเฉลี่ยความคลาดเคลื่อนกำลังสองได้ดังนี้ 1. กรณีที่ความคลาดเคลื่อนมีการแจกแจงปกติและปกติปลอมปน ผู้วิจัยพบว่าวิธี RR จะให้ผลดีที่สุดโดยส่วนใหญ่สำหรับทุกการแจกแจง ส่วนวิธี RS จะให้ผลดีที่สุดในกรณีที่ความคลาดเคลื่อนมีการแจกแจงปกติเมื่อจำนวนตัวแปรอิสระเท่ากับ 3 โดยที่ระดับพหุสัมพันธ์มีค่าอยู่ในระดับต่ำ ((0.10),(0.30)) และระดับปานกลาง (0.50) และจะให้ผลดีที่สุดสำหรับจำนวนตัวแปรอิสระเท่ากับ 5 เมื่อระดับพหุสัมพันธ์มีค่าอยู่ในระดับต่ำ ((0.10),(0.30)) และระดับปานกลาง ((0.50),(0.70)) ซึ่งในกรณีนี้ 𝛔 เท่ากับ 0.05 และขนาดตัวอย่างเท่ากับ 100 นอกจากนั้นวิธี RS จะให้ผลดีที่สุดสำหรับการแจกแจงปกติปลอมปนเมื่อจำนวนตัวแปรอิสระเท่ากับ 3 และ 5 โดยที่ระดับพหุสัมพันธ์มีค่าอยู่ในระดับต่ำ ((0.10),(0.30)) และระดับปานกลาง (0.50) ซึ่งในกรณีนี้ 𝛔 เท่ากับ 0.05 ขนาดตัวอย่างเท่ากับ 100 สเกลแฟคเตอร์เท่ากับ 3 และเปอร์เซ็นต์การปลอมปนเท่ากับ 5 และ 10 ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองแปรผันตามปัจจัยต่อไปนี้จากมากไปหาน้อย จำนวนตัวแปรอิสระ สเกลแฟคเตอร์ เปอร์เซ็นต์การปลอมปน ระดับความสัมพันธ์ และความแปรปรวน แต่แปรผกผันกับขนาดตัวอย่าง 2. กรณีที่ความคลาดเคลื่อนมีการแจกแจงลอกนอร์มอล ผู้วิจัยพบว่าวิธี RR ให้ผลดีที่สุดทุกกรณีเมื่อ C.V. = 22%, 59% และ 100% เพราะว่าวิธี RR จะให้ผลดีเมื่อ C.V. มีค่าเพิ่มขึ้น ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองแปรผันตามปัจจัยต่อไปนี้จากมากไปน้อย จำนวนตัวแปรอิสระ ระดับความสัมพันธ์ และความแปรปรวน แต่แปรผกผันกับขนาดตัวอย่าง |
Other Abstract: | The objective of this thesis is to compare methods in estimating multiple regression coefficients with multicollinearity by comparing Ordinary Least Squares (OLS) method, Ridge Regression (RR) method and Ridge and Stein (RS) method. They are compared by using the percentage ratio of average value of mean square error. The residual distribution in this study are normal distribution with µ = 1, 𝛔 = 0.05, 0.10 and 0.15, contaminated normal distribution with scale factors of 3 and 10, and percent contaminations of 5 and 10, and lognormal distribution with ที่ µ = 1, 𝛔 ² = 0.05, 0.30 และ 0.70 thus coefficients of variation (C.V.) are equal to 22%, 59% and 100%, respectively. Initial multiple regression coefficients are calculated from eigenvector which corresponds to minimum eigenvalue. The correlation among the independent variables are classified into 3 levels for which low levels are equal to 0.10 and 0.30, middle levels are equal to 0.50 and 0.70, and high levels are equal to 0.90 and 0.99 in the case of 3 independent variables, and classified into 3 levels for which low levels are equal to (0.10, 0.10) and (0.30, 0.30), middle levels are equal to (0.50, 0.50) and (0.70, 0.70), and high levels are equal to (0.90, 0.90) and (0.99, 0.99) in the case of 5 independent variables. This study uses sample sizes of 30, 50 and 100. The data are obtained through simulation using Monte Carlo technique, and repeating 500 times for each case. We can conclude the results of comparing the percentage ratio of average value of mean square error as follow : 1. In case, residuals have normal and contaminated normal distribution, RR method generally gives the best result for both distributions. However, in the case of normal distribution, RS method gives the best result for the number of independent variables of 3 and multicollinearity at all low level ((0.10),(0.30)) and some middle level (0.50). RS method also gives the best result for normal distribution with the number of independent variables of 5 and multicollinearity at all low levels ((0.10),(0.30)) and all middle levels ((0.50),(0.70)). In the both cases, 𝛔 must be equal to 0.05 and sample size must be 100. In the case of contaminated normal distribution, RS method gives the best result for the number of independent variables of 3 and 5, multicollinearity at all low levels ((0.10),(0.30)) and some middle level (0.50). In this case, 𝛔 must be 0.05 with sample size of 100, scale factor of 3 and percent contaminations of 5 and 10. The average value of mean square error varies with, most to least respectively, the number of independent variables, scale factors, percentage of contamination, level of correlation and variances but converse to sample size. 2. In case, residuals have lognormal distribution, RR method gives the best result in all cases when C.V. = 22%, 59% and 100% because RR method gives the best result when C.V. increase. The average value of mean square error varies with, most to least respectively, the number of independent variables, level of correlation and variances but converse to sample size. |
Description: | วิทยานิพนธ์ (สต.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2538 |
Degree Name: | สถิติศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | สถิติ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/30936 |
ISBN: | 9746329553 |
Type: | Thesis |
Appears in Collections: | Grad - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Thunyakon_to_front.pdf | 11.32 MB | Adobe PDF | View/Open | |
Thunyakon_to_ch1.pdf | 3.95 MB | Adobe PDF | View/Open | |
Thunyakon_to_ch2.pdf | 11.12 MB | Adobe PDF | View/Open | |
Thunyakon_to_ch3.pdf | 5.64 MB | Adobe PDF | View/Open | |
Thunyakon_to_ch4.pdf | 8.84 MB | Adobe PDF | View/Open | |
Thunyakon_to_ch5.pdf | 4.86 MB | Adobe PDF | View/Open | |
Thunyakon_to_back.pdf | 4.46 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.