DSpace Repository

ประสิทธิภาพของวิธีการจัดการข้อมูลไม่สมดุลสำหรับการจำแนกกลุ่มภายใต้เงื่อนไขที่แตกต่างกัน

Show simple item record

dc.contributor.advisor ประภาศิริ รัชชประภาพรกุล
dc.contributor.advisor สุรศักดิ์ เก้าเอี้ยน
dc.contributor.author กาญธนา ลออสิริกุล
dc.contributor.other จุฬาลงกรณ์มหาวิทยาลัย. คณะครุศาสตร์
dc.date.accessioned 2023-08-04T06:35:58Z
dc.date.available 2023-08-04T06:35:58Z
dc.date.issued 2565
dc.identifier.uri https://cuir.car.chula.ac.th/handle/123456789/82683
dc.description วิทยานิพนธ์ (ค.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565
dc.description.abstract การวิจัยนี้มีจุดประสงค์เพื่อศึกษาปฏิสัมพันธ์ของวิธีการปรับสมดุลข้อมูลกับเงื่อนไขด้านขนาดตัวอย่าง เทคนิคการจำแนกข้อมูล จำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง อัตราออด และร้อยละของจำนวนข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรองที่มีต่อประสิทธิภาพของการจำแนกกลุ่ม การปรับสมดุลของข้อมูลแบ่งออกเป็น 3 วิธี ได้แก่ (1) ไม่ปรับสมดุล (2) วิธี random oversampling และ (3) วิธีผสมผสานระหว่างรูปแบบสุ่มเกินและสุ่มลด (hybrid) โดยใช้แพคเกจ ROSE ส่วนเงื่อนไขด้านขนาดตัวอย่างแบ่งออกเป็น ขนาดตัวอย่างเท่ากับ 100 300 และ 500 หน่วย ด้านเทคนิคการจำแนกข้อมูล แบ่งออกเป็น 4 วิธี ได้แก่ (1) เคเนียร์เรสเนเบอร์ (2) การถดถอยโลจิสติก (3) แรนดอมฟอร์เรส และ (4) ซัพพอร์ตเวกเตอร์แมชชีน ตัวแปรจากการจำลองแบ่งออกเป็นตัวแปรตามซึ่งจำลองด้วยการถดถอยโลจิสติก ส่วนตัวแปรอิสระในการจำลองข้อมูลครั้งนี้จะกำหนดให้ใช้ตัวแปรอิสระจำลองทั้งหมด 8 ตัว โดยกำหนดให้มีจำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง 3 กรณี คือ 4:4 5:3 และ 6:2 ในขณะที่ระดับของอัตราออด จะสุ่มค่าจากช่วง [1,2) หรือ [2,3) และร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง แบ่งออกเป็น 2 กรณี ได้แก่ 60:40 และ 70:30 พิจารณาเกณฑ์ประสิทธิภาพของข้อมูลด้วยตัวชี้วัดความถูกต้องในการจำแนก ความไว และความจำเพาะ การจำลองแต่ละสถานการณ์จะทำซ้ำสถานการณ์ละ 500 รอบ การวิเคราะห์ปฏิสัมพันธ์ระหว่างวิธีการปรับสมดุลข้อมูลกับเงื่อนไขต่าง ๆ ใช้การวิเคราะห์ความแปรปรวนพหุคูณหลายทาง (n-way MANOVA) ผลการวิจัยพบว่า วิธีการปรับสมดุลข้อมูลมีปฏิสัมพันธ์แบบสองทางกับเงื่อนไขด้านขนาดตัวอย่าง ร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง อัตราออด และเทคนิคการจำแนกข้อมูล และพบปฏิสัมพันธ์แบบสามทางกับเงื่อนไขต่อไปนี้ (1) ขนาดตัวอย่างและจำนวนตัวแปรระหว่างกลุ่มตัวแปรจัดประเภทต่อกลุ่มตัวแปรต่อเนื่อง (2) ขนาดตัวอย่างและเทคนิคการจำแนกข้อมูล และ (3) ร้อยละของข้อมูลระหว่างข้อมูลกลุ่มหลักต่อข้อมูลกลุ่มรอง และเทคนิคการจำแนกข้อมูล ดังนั้นนักวิเคราะห์ข้อมูลควรเลือกใช้วิธีการปรับสมดุลข้อมูลโดยพิจารณาให้เหมาะสมกับสภาพของข้อมูลที่ใช้ในการวิเคราะห์
dc.description.abstractalternative The research aimed to study interaction effects between data balancing methods and data conditions included sample sizes, classification techniques, the number of variables between categorical variables and continuous variables, odds ratio, and percentage of data between majority and minority class. Data balancing methods divided into 3 methods, consisted of (1) do nothing (2) random oversampling and (3) combination between oversampling and undersampling (hybrid), using ROSE package. Conditions of sample sizes were included 100, 300, and 500. Classification techniques used in the study were (1) K-nearest neighbor, (2) logistic regression, (3) random forest and (4) support vector machine. Variables for classification analysis consisted of a dependent variable, which was simulated using logistic regression model, and 8 simulated independent variables. The number of variables between categorical variables and continuous variables were 4:4, 5:3, and 6:2, while levels of odds ratio were randomized from [1,2) or [2,3). The percentage of data between majority and minority class consisted of 60:40 and 70:30. 3 criterion of classification modeling were considered in this study included accuracy, sensitivity, and specificity. Each simulation was repeated 500 times. Interaction effects between data balancing methods and any conditions were analyzed using n-way MANOVA. The result revealed that data balancing methods had 2-way interaction effects with sample sizes, percentage of data between majority and minority class, odds ratio, and classification techniques. Moreover, it had 3-way interaction effects with following terms: (1) sample sizes and the number of variables between categorical variables and continuous variables, (2) sample sizes and classification techniques, and (3) percentage of data between majority and minority class and classification techniques. Therefore, the analyst should choose the appropriate data balancing methods with data conditions.
dc.language.iso th
dc.publisher จุฬาลงกรณ์มหาวิทยาลัย
dc.relation.uri http://doi.org/10.58837/CHULA.THE.2022.965
dc.rights จุฬาลงกรณ์มหาวิทยาลัย
dc.title ประสิทธิภาพของวิธีการจัดการข้อมูลไม่สมดุลสำหรับการจำแนกกลุ่มภายใต้เงื่อนไขที่แตกต่างกัน
dc.title.alternative Effectiveness of handling imbalanced data methods for classification under varied conditions
dc.type Thesis
dc.degree.name ครุศาสตรมหาบัณฑิต
dc.degree.level ปริญญาโท
dc.degree.discipline สถิติและสารสนเทศการศึกษา
dc.degree.grantor จุฬาลงกรณ์มหาวิทยาลัย
dc.identifier.DOI 10.58837/CHULA.THE.2022.965


Files in this item

This item appears in the following Collection(s)

Show simple item record