dc.contributor.advisor |
เสกสรร เกียรติสุไพบูลย์ |
|
dc.contributor.author |
รัชพงศ์ ปรัชญาเศรษฐ |
|
dc.contributor.other |
จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี |
|
dc.date.accessioned |
2023-02-03T04:31:28Z |
|
dc.date.available |
2023-02-03T04:31:28Z |
|
dc.date.issued |
2565 |
|
dc.identifier.uri |
http://cuir.car.chula.ac.th/handle/123456789/81683 |
|
dc.description |
วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565 |
|
dc.description.abstract |
Regularization เป็นวิธีการป้องกันปัญหา overfitting ด้วยการเพิ่มฟังก์ชันการลงโทษไปในตัวแบบเพื่อให้เกิดการคัดกรองตัวแปรเข้าสู่ตัวแบบ งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบประสิทธิภาพของวิธีการคัดกรองตัวแปรสำหรับการวิเคราะห์การถดถอยโลจิสติกในข้อมูลที่มีมิติสูง ด้วยการใช้ฟังก์ชันการลงโทษในรูปแบบ (1) L0-regularization (2) L1-regularization (3) L0L2-regularization การวิจัยนี้ใช้การจำลองข้อมูลเพื่อทำการทดสอบ 18 กรณี โดยกำหนดค่าที่ต่างกันประกอบด้วย จำนวนตัวแปรอิสระมีจำนวน 200, 500 และ 1000 ตัวแปร ความสัมพันธ์ของตัวแปรอิสระมีค่าเท่ากับ 0, 0.5 และ 0.9 อัตราส่วนสัญญาณต่อสัญญาณรบกวนมีค่าเท่ากับ 1 และ 6 โดยจำลองข้อมูลแต่ละกรณีจำนวน 100 ชุด ในการศึกษานี้มุ่งเน้นที่การเปรียบเทียบประสิทธิภาพในการคัดกรองตัวแปรของตัวแบบ และประสิทธิภาพในการทำนายของตัวแบบ ซึ่งเปรียบเทียบประสิทธิภาพในแต่ละวิธีด้วย ความผิดพลาดในการตรวจจับเชิงบวก ค่าเฉลี่ยแบบฮาร์โมนิคของค่าความแม่นยำและค่าความไว และ พื้นที่ใต้เส้นโค้ง จากการศึกษาพบว่าวิธี L0 มีความแม่นยำในการคัดกรองตัวแปรมากที่สุดเมื่อพิจารณาด้วยความผิดพลาดในการตรวจจับเชิงบวก เมื่อพิจารณาด้วยค่าเฉลี่ยแบบฮาร์โมนิคของค่าความแม่นยำและค่าความไว พบว่าวิธี L1 และ L0L2 มีประสิทธิภาพในการคัดกรองตัวแปรใกล้เคียงกัน แต่วิธี L0L2 จะมีประสิทธิภาพสูงกว่าเมื่อความสัมพันธ์ระหว่างตัวแปรอิสระมีค่าสูง และเมื่อพิจารณาประสิทธิภาพในการทำนายของตัวแบบด้วยพื้นที่ใต้เส้นโค้ง พบว่าวิธี L1 จะมีประสิทธิภาพสูงที่สุดในทุกกรณี |
|
dc.description.abstractalternative |
Regularization is a method to circumvent the overfitting by adding penalty function to a model which results in a feature selection. This research aims to study and compare the performances of feature selection methods for binary logistic regression in high-dimensional data by using penalty function of the forms: (1) L0-regularization (2) L1-regularization and (3) L0L2-regularization. Simulated datasets are organized into 18 cases using various number of independent variables (features) (200, 500, 1000), correlation (0, 0.5, 0.9), and signal to noise ratio (1, 6), each with 100 simulated datasets. According to the performances, the study emphasizes on the accuracy of variables selection and predictive performance, which are compared in terms of False Positive, F1-Score, and Area under the Curve (AUC). This paper shows that L0-regularization yields the highest accuracy of the variables selection in terms of False Positive. For F1-Score, L1-regularization and L0L2-regularization, are comparable. However, L0L2-regularization tends to perform better when the correlations among independent variables are high. In addition, L1-regularization outperforms other methods in terms of predictive performance measured by AUC. |
|
dc.language.iso |
th |
|
dc.publisher |
จุฬาลงกรณ์มหาวิทยาลัย |
|
dc.relation.uri |
http://doi.org/10.58837/CHULA.THE.2022.962 |
|
dc.rights |
จุฬาลงกรณ์มหาวิทยาลัย |
|
dc.subject |
สถิติ |
|
dc.subject |
ค่าเฉลี่ย |
|
dc.subject |
ตัวแปร (คณิตศาสตร์) |
|
dc.subject |
Statistics |
|
dc.subject |
Average |
|
dc.subject |
Variables (Mathematics) |
|
dc.subject.classification |
Mathematics |
|
dc.title |
การเปรียบเทียบวิธีการคัดเลือกตัวแปรสำหรับการถดถอยโลจิสติกในข้อมูลที่มีมิติสูง |
|
dc.title.alternative |
A comparison of feature selection methods for logistic regression in high dimensional data |
|
dc.type |
Thesis |
|
dc.degree.name |
วิทยาศาสตรมหาบัณฑิต |
|
dc.degree.level |
ปริญญาโท |
|
dc.degree.discipline |
สถิติ |
|
dc.degree.grantor |
จุฬาลงกรณ์มหาวิทยาลัย |
|
dc.identifier.DOI |
10.58837/CHULA.THE.2022.962 |
|