Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/82683
Title: ประสิทธิภาพของวิธีการจัดการข้อมูลไม่สมดุลสำหรับการจำแนกกลุ่มภายใต้เงื่อนไขที่แตกต่างกัน
Other Titles: Effectiveness of handling imbalanced data methods for classification under varied conditions
Authors: กาญธนา ลออสิริกุล
Advisors: ประภาศิริ รัชชประภาพรกุล
สุรศักดิ์ เก้าเอี้ยน
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะครุศาสตร์
Issue Date: 2565
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: การวิจัยนี้มีจุดประสงค์เพื่อศึกษาปฏิสัมพันธ์ของวิธีการปรับสมดุลข้อมูลกับเงื่อนไขด้านขนาดตัวอย่าง เทคนิคการจำแนกข้อมูล จำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง อัตราออด และร้อยละของจำนวนข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรองที่มีต่อประสิทธิภาพของการจำแนกกลุ่ม การปรับสมดุลของข้อมูลแบ่งออกเป็น 3 วิธี ได้แก่ (1) ไม่ปรับสมดุล (2) วิธี random oversampling และ (3) วิธีผสมผสานระหว่างรูปแบบสุ่มเกินและสุ่มลด (hybrid) โดยใช้แพคเกจ ROSE ส่วนเงื่อนไขด้านขนาดตัวอย่างแบ่งออกเป็น ขนาดตัวอย่างเท่ากับ 100 300 และ 500 หน่วย ด้านเทคนิคการจำแนกข้อมูล แบ่งออกเป็น 4 วิธี ได้แก่ (1) เคเนียร์เรสเนเบอร์ (2) การถดถอยโลจิสติก (3) แรนดอมฟอร์เรส และ (4) ซัพพอร์ตเวกเตอร์แมชชีน ตัวแปรจากการจำลองแบ่งออกเป็นตัวแปรตามซึ่งจำลองด้วยการถดถอยโลจิสติก ส่วนตัวแปรอิสระในการจำลองข้อมูลครั้งนี้จะกำหนดให้ใช้ตัวแปรอิสระจำลองทั้งหมด 8 ตัว โดยกำหนดให้มีจำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง 3 กรณี คือ 4:4 5:3 และ 6:2 ในขณะที่ระดับของอัตราออด จะสุ่มค่าจากช่วง [1,2) หรือ [2,3) และร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง แบ่งออกเป็น 2 กรณี ได้แก่ 60:40 และ 70:30 พิจารณาเกณฑ์ประสิทธิภาพของข้อมูลด้วยตัวชี้วัดความถูกต้องในการจำแนก ความไว และความจำเพาะ การจำลองแต่ละสถานการณ์จะทำซ้ำสถานการณ์ละ 500 รอบ การวิเคราะห์ปฏิสัมพันธ์ระหว่างวิธีการปรับสมดุลข้อมูลกับเงื่อนไขต่าง ๆ ใช้การวิเคราะห์ความแปรปรวนพหุคูณหลายทาง (n-way MANOVA) ผลการวิจัยพบว่า วิธีการปรับสมดุลข้อมูลมีปฏิสัมพันธ์แบบสองทางกับเงื่อนไขด้านขนาดตัวอย่าง ร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง อัตราออด และเทคนิคการจำแนกข้อมูล และพบปฏิสัมพันธ์แบบสามทางกับเงื่อนไขต่อไปนี้ (1) ขนาดตัวอย่างและจำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง (2) ขนาดตัวอย่างและเทคนิคการจำแนกข้อมูล และ (3) ร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง และเทคนิคการจำแนกข้อมูล ดังนั้นนักวิเคราะห์ข้อมูลควรเลือกใช้วิธีการปรับสมดุลข้อมูลโดยพิจารณาให้เหมาะสมกับสภาพของข้อมูลที่ใช้ในการวิเคราะห์
Other Abstract: The research aimed to study interaction effects between data balancing methods and data conditions included sample sizes, classification techniques, the number of variables between categorical variables and continuous variables, odds ratio, and percentage of data between majority and minority class. Data balancing methods divided into 3 methods, consisted of (1) do nothing (2) random oversampling and (3) combination between oversampling and undersampling (hybrid), using ROSE package. Conditions of sample sizes were included 100, 300, and 500. Classification techniques used in the study were (1) K-nearest neighbor, (2) logistic regression, (3) random forest and (4) support vector machine. Variables for classification analysis consisted of a dependent variable, which was simulated using logistic regression model, and 8 simulated independent variables. The number of variables between categorical variables and continuous variables were 4:4, 5:3, and 6:2, while levels of odds ratio were randomized from [1,2) or [2,3). The percentage of data between majority and minority class consisted of 60:40 and 70:30. 3 criterion of classification modeling were considered in this study included accuracy, sensitivity, and specificity. Each simulation was repeated 500 times. Interaction effects between data balancing methods and any conditions were analyzed using n-way MANOVA. The result revealed that data balancing methods had 2-way interaction effects with sample sizes, percentage of data between majority and minority class, odds ratio, and classification techniques. Moreover, it had 3-way interaction effects with following terms: (1) sample sizes and the number of variables between categorical variables and continuous variables, (2) sample sizes and classification techniques, and (3) percentage of data between majority and minority class and classification techniques. Therefore, the analyst should choose the appropriate data balancing methods with data conditions.
Description: วิทยานิพนธ์ (ค.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565
Degree Name: ครุศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: สถิติและสารสนเทศการศึกษา
URI: https://cuir.car.chula.ac.th/handle/123456789/82683
URI: http://doi.org/10.58837/CHULA.THE.2022.965
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2022.965
Type: Thesis
Appears in Collections:Edu - Theses

Files in This Item:
File Description SizeFormat 
6282002827.pdf2.1 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.