Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/82734
Title: การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานสำหรับข้อมูลไม่สมดุล กรณีศึกษาข้อมูลเครดิตเยอรมัน
Other Titles: Bagging heterogeneous ensemble learning for imbalanced data: a case study of German credit data
Authors: ศศิวิมล ศรีโรจน์
Advisors: ณัตติฤดี เจริญรักษ์
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี
Issue Date: 2565
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างตัวแบบการเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนาน (Bagging Heterogeneous Ensemble)  และหาวิธีการลดมิติข้อมูลและวิธีการสุ่มตัวอย่างซ้ำที่เหมาะสมกับข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลแตกต่างกัน 3 ค่าคือ 2.3, 10 และ 14 โดยวัดประสิทธิภาพด้วยตัวชี้วัด Accuracy, The area under the curve, F1-score, Precision, Brier score และ Kolmogorov-Smirnov และทดสอบทางสถิติเพื่อแสดงว่าประสิทธิภาพของตัวแบบมีความแตกต่างกัน ที่ระดับนัยสำคัญ 0.05 ผลการศึกษาพบว่าข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลต่ำ (IR = 2.3) ตัวแบบ Logistic Regression ที่ใช้เทคนิค Linear Discriminant Analysis (LDA) และ Systematic Minority Over-Sampling Technique (SM) จะมีประสิทธิภาพเฉลี่ยดีที่สุดในการจำแนกประเภท ในส่วนของอัตราส่วนความไม่สมดุลกลาง (IR = 10) และ อัตราส่วนความไม่สมดุลสูง (IR = 14) วิธีการลดมิติข้อมูลและการสุ่มตัวอย่างซ้ำที่มีประสิทธิภาพคือ Linear Discriminant Analysis (LDA), Random Under-Sampling (RUS) และ Linear Discriminant Analysis (LDA), Borderline SMOTE (BSM) ตามลำดับ โดยที่การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานมีประสิทธิภาพเฉลี่ยดีที่สุด ทั้งในกรณีที่มีและไม่มีวิธีการลดมิติข้อมูลและสุ่มตัวอย่างซ้ำของอัตราส่วนความไม่สมดุลกลางและสูง  
Other Abstract: The objective of this study is to develop a bagging heterogeneous ensemble and identify appropriate dimensionality reduction and resampling techniques for three different imbalance ratios (2.3, 10 and 14) in the German credit data. Model performance was evaluated using Accuracy, the area under the curve, F1-score, Precision, Brier score and Kolmogorov-Smirnov and statistical tests showed significant performance differences at 0.05 significance level. The study found that for German credit data with low imbalance ratio (IR = 2.3), the Logistic Regression model using Linear Discriminant Analysis (LDA) and Systematic Majority Over-Sampling (SM) had the best classification performance. For medium imbalance ratio (IR = 10) and high imbalance ratio (IR = 14), the most effective techniques for dimensionality reduction and resampling were Linear Discriminant Analysis (LDA), Random Under-Sampling (RUS), and Linear Discriminant Analysis (LDA), Borderline SMOTE (BSM) respectively. The Bagging Heterogeneous ensemble performed best both in cases with and without resampling and dimensionality reduction for medium and high imbalance ratios.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: สถิติ
URI: https://cuir.car.chula.ac.th/handle/123456789/82734
URI: http://doi.org/10.58837/CHULA.THE.2022.963
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2022.963
Type: Thesis
Appears in Collections:Acctn - Theses

Files in This Item:
File Description SizeFormat 
6480493826.pdf2.63 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.