DSpace Repository

การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานสำหรับข้อมูลไม่สมดุล กรณีศึกษาข้อมูลเครดิตเยอรมัน

Show simple item record

dc.contributor.advisor ณัตติฤดี เจริญรักษ์
dc.contributor.author ศศิวิมล ศรีโรจน์
dc.contributor.other จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี
dc.date.accessioned 2023-08-04T06:41:31Z
dc.date.available 2023-08-04T06:41:31Z
dc.date.issued 2565
dc.identifier.uri https://cuir.car.chula.ac.th/handle/123456789/82734
dc.description วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565
dc.description.abstract งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างตัวแบบการเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนาน (Bagging Heterogeneous Ensemble)  และหาวิธีการลดมิติข้อมูลและวิธีการสุ่มตัวอย่างซ้ำที่เหมาะสมกับข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลแตกต่างกัน 3 ค่าคือ 2.3, 10 และ 14 โดยวัดประสิทธิภาพด้วยตัวชี้วัด Accuracy, The area under the curve, F1-score, Precision, Brier score และ Kolmogorov-Smirnov และทดสอบทางสถิติเพื่อแสดงว่าประสิทธิภาพของตัวแบบมีความแตกต่างกัน ที่ระดับนัยสำคัญ 0.05 ผลการศึกษาพบว่าข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลต่ำ (IR = 2.3) ตัวแบบ Logistic Regression ที่ใช้เทคนิค Linear Discriminant Analysis (LDA) และ Systematic Minority Over-Sampling Technique (SM) จะมีประสิทธิภาพเฉลี่ยดีที่สุดในการจำแนกประเภท ในส่วนของอัตราส่วนความไม่สมดุลกลาง (IR = 10) และ อัตราส่วนความไม่สมดุลสูง (IR = 14) วิธีการลดมิติข้อมูลและการสุ่มตัวอย่างซ้ำที่มีประสิทธิภาพคือ Linear Discriminant Analysis (LDA), Random Under-Sampling (RUS) และ Linear Discriminant Analysis (LDA), Borderline SMOTE (BSM) ตามลำดับ โดยที่การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานมีประสิทธิภาพเฉลี่ยดีที่สุด ทั้งในกรณีที่มีและไม่มีวิธีการลดมิติข้อมูลและสุ่มตัวอย่างซ้ำของอัตราส่วนความไม่สมดุลกลางและสูง  
dc.description.abstractalternative The objective of this study is to develop a bagging heterogeneous ensemble and identify appropriate dimensionality reduction and resampling techniques for three different imbalance ratios (2.3, 10 and 14) in the German credit data. Model performance was evaluated using Accuracy, the area under the curve, F1-score, Precision, Brier score and Kolmogorov-Smirnov and statistical tests showed significant performance differences at 0.05 significance level. The study found that for German credit data with low imbalance ratio (IR = 2.3), the Logistic Regression model using Linear Discriminant Analysis (LDA) and Systematic Majority Over-Sampling (SM) had the best classification performance. For medium imbalance ratio (IR = 10) and high imbalance ratio (IR = 14), the most effective techniques for dimensionality reduction and resampling were Linear Discriminant Analysis (LDA), Random Under-Sampling (RUS), and Linear Discriminant Analysis (LDA), Borderline SMOTE (BSM) respectively. The Bagging Heterogeneous ensemble performed best both in cases with and without resampling and dimensionality reduction for medium and high imbalance ratios.
dc.language.iso th
dc.publisher จุฬาลงกรณ์มหาวิทยาลัย
dc.relation.uri http://doi.org/10.58837/CHULA.THE.2022.963
dc.rights จุฬาลงกรณ์มหาวิทยาลัย
dc.subject.classification Computer Science
dc.subject.classification Mathematics
dc.subject.classification Information and communication
dc.subject.classification Statistics
dc.title การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานสำหรับข้อมูลไม่สมดุล กรณีศึกษาข้อมูลเครดิตเยอรมัน
dc.title.alternative Bagging heterogeneous ensemble learning for imbalanced data: a case study of German credit data
dc.type Thesis
dc.degree.name วิทยาศาสตรมหาบัณฑิต
dc.degree.level ปริญญาโท
dc.degree.discipline สถิติ
dc.degree.grantor จุฬาลงกรณ์มหาวิทยาลัย
dc.identifier.DOI 10.58837/CHULA.THE.2022.963


Files in this item

This item appears in the following Collection(s)

Show simple item record