Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/84449
Title: | Random forest algorithm using quartile-patternbootstrapping for class imbalanced problem |
Other Titles: | ขั้นตอนวิธีป่าสุ่มด้วยบูทสแทรปรูปแบบควอไทล์สําหรับปัญหาคลาสไม่ดุล |
Authors: | Worawit Jitpakdeebodin |
Advisors: | Krung Sinapiromsaran |
Other author: | Chulalongkorn University. Faculty of Science |
Issue Date: | 2022 |
Publisher: | Chulalongkorn University |
Abstract: | Nowadays, classification in machine learning serves as a valuable tool for extracting and analyzing real-world datasets. However, an important issue in classification is the problem of class imbalance, which significantly impacts the performance of classifiers. In 2019, a novel approach for a decision tree induction was introduced to address This problem—the Minority Condensation Entropy (MCE) measure that can effectively handle imbalanced datasets. Subsequently, in 2021, a new outlier factor called the Mass ratio - variance Outlier Factor (MOF) was presented that can rank instances based on the dataset density. This thesis proposes a random forest algorithm using quartile-pattern Bootstrapping that incorporates MOF and MCE building a random forest capable of handling binary Class imbalanced datasets. The experimental results on synthesized datasets and real-world datasets indicated that the proposed algorithm outperforms other existing algorithms in terms of Precision, Recall, F-measure, and geometric mean, showing its effectiveness in handling imbalanced datasets and improving classification accuracy. |
Other Abstract: | ในปัจจุบันการจำแนกประเภทในการเรียนรู้ของเครื่องเป็นเครื่องมือที่สำคัญสำหรับการ ดึงข้อมูลและการวิเคราะห์ข้อมูลโลกจริงอย่างไรก็ตามปัญหาที่สำคัญในการจำแนกประเภท คือปัญหาของความไม่ดุลของคลาสซึ่งมีผลกระทบต่อประสิทธิภาพของตัวจำแนกประเภท อย่างมีนัยสำคัญในปี 2019มีการนำเสนอวิธีการใหม่สำหรับการสร้างต้นไม้ตัดสินใจเพื่อแก้ ปัญหานี้ —ไมนอริตี้คอนเดนเซชันเอ็นโทรปี (MCE) ซึ่งสามารถจัดการกับชุดข้อมูลที่ไม่ ดุลได้อย่างมีประสิทธิภาพต่อมาในปี 2021มีการนำเสนอตัววัดปัจจัยความผิดปกติ เรียกว่า ปัจจัยความผิดปกติแมสเรโชแวเรียนซ์ (MOF)ที่สามารถจัดลำดับตัวอย่างตามความหนาแน่น ของข้อมูลวิทยานิพนธ์นี้นำเสนอขั้นตอนวิธีป่าสุ่มที่ใช้รูปแบบบูตสแทรปที่รวมMOFและ MCE เพื่อสร้างป่าสุ่มที่สามารถจัดการกับชุดข้อมูลสองคลาสที่ไม่ดุลผลการทดลองบนชุด ข้อมูลสังเคราะห์และชุดข้อมูลจริงแสดงให้เห็นว่าขั้นตอนวิธีที่นำเสนอมีประสิทธิภาพมากกว่า ขั้นตอนวิธีที่มีอยู่ในด้านพรีซีชันรีคอลตัววัดเอฟและค่าเฉลี่ยเรขาคณิตแสดงถึงความสามารถ ในการจัดการกับชุดข้อมูลที่ไม่ดุลและประสิทธิภาพที่ดีกว่าในการจำแนกประเภท |
Description: | Thesis (M.Sc.)--Chulalongkorn University, 2022 |
Degree Name: | Master of Science |
Degree Level: | Master's Degree |
Degree Discipline: | Applied Mathematics and Computational Science |
URI: | https://cuir.car.chula.ac.th/handle/123456789/84449 |
Type: | Thesis |
Appears in Collections: | Sci - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
6470133423.pdf | 2.38 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.