Abstract:
งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างตัวแบบการเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนาน (Bagging Heterogeneous Ensemble) และหาวิธีการลดมิติข้อมูลและวิธีการสุ่มตัวอย่างซ้ำที่เหมาะสมกับข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลแตกต่างกัน 3 ค่าคือ 2.3, 10 และ 14 โดยวัดประสิทธิภาพด้วยตัวชี้วัด Accuracy, The area under the curve, F1-score, Precision, Brier score และ Kolmogorov-Smirnov และทดสอบทางสถิติเพื่อแสดงว่าประสิทธิภาพของตัวแบบมีความแตกต่างกัน ที่ระดับนัยสำคัญ 0.05 ผลการศึกษาพบว่าข้อมูลเครดิตเยอรมันที่มีอัตราส่วนความไม่สมดุลต่ำ (IR = 2.3) ตัวแบบ Logistic Regression ที่ใช้เทคนิค Linear Discriminant Analysis (LDA) และ Systematic Minority Over-Sampling Technique (SM) จะมีประสิทธิภาพเฉลี่ยดีที่สุดในการจำแนกประเภท ในส่วนของอัตราส่วนความไม่สมดุลกลาง (IR = 10) และ อัตราส่วนความไม่สมดุลสูง (IR = 14) วิธีการลดมิติข้อมูลและการสุ่มตัวอย่างซ้ำที่มีประสิทธิภาพคือ Linear Discriminant Analysis (LDA), Random Under-Sampling (RUS) และ Linear Discriminant Analysis (LDA), Borderline SMOTE (BSM) ตามลำดับ โดยที่การเรียนรู้แบบรวมกลุ่มด้วยตัวแบบที่แตกต่างกันแบบขนานมีประสิทธิภาพเฉลี่ยดีที่สุด ทั้งในกรณีที่มีและไม่มีวิธีการลดมิติข้อมูลและสุ่มตัวอย่างซ้ำของอัตราส่วนความไม่สมดุลกลางและสูง