Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/31205
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | Krung Sinapiromsaran | - |
dc.contributor.advisor | Chidchanok Lursinsap | - |
dc.contributor.author | Chumphol Bunkhumpornpat | - |
dc.contributor.other | Chulalongkorn University. Faculty of Science | - |
dc.date.accessioned | 2013-05-23T02:30:29Z | - |
dc.date.available | 2013-05-23T02:30:29Z | - |
dc.date.issued | 2011 | - |
dc.identifier.uri | http://cuir.car.chula.ac.th/handle/123456789/31205 | - |
dc.description | Thesis (Ph.D.)--Chulalongkorn University, 2011 | en |
dc.description.abstract | A dataset embodies the class imbalanced problem when the target class has a very small number of instances relative to the other classes. A trivial classifier typically fails to predict the positive instances due to its tiny size. In this thesis, the density-based minority over-sampling framework is proposed. It relies on a density-based notion of clusters and is designed to over-sample an arbitrarily shaped cluster discovered by the density-based clustering algorithm. In detail, my framework generates a synthetic instance along the shortest path from each instance in a cluster of a minority class to the pseudo-centroid of this cluster. Consequently, a set of the synthetic instances is dense near the pseudo-centroid and is sparse far from this centroid. Due to the distribution of the set, a classifier faces more emphatically around the core region than it does around the border region. The experimental results show that my framework improves accuracy, F-value (combination term of Precision and Recall), and AUC of a classifier more than SMOTE and Safe-Level-SMOTE. | en |
dc.description.abstractalternative | เซตข้อมูลจัดอยู่ในปัญหากลุ่มข้อมูลอสมดุลเมื่อกลุ่มข้อมูลเป้าหมายมีจำนวนข้อมูลน้อยมากเปรียบเทียบกับกลุ่มข้อมูลอื่น ตัวจำแนกกลุ่มข้อมูลโดยทั่วไปมีความผิดพลาดในการทำนายกลุ่มข้อมูลด้อยนี้เพราะจำนวนข้อมูลในกลุ่มมีขนาดเล็ก วิทยานิพนธ์ฉบับนี้ได้นำเสนอกรอบการทำงานสุ่มเพิ่มกลุ่มข้อมูลด้อยด้วยความหนาแน่น กรอบการทำงานนี้ถูกออกแบบให้สุ่มเพิ่มข้อมูลในกลุ่มข้อมูลรูปร่างทั่วไป โดยใช้หลักความหนาแน่นของกลุ่มข้อมูล กล่าวโดยละเอียด กรอบการทำงานนี้สร้างข้อมูลสังเคราะห์ตามแนววิถีสั้นสุดระหว่างข้อมูลแต่ละตัวและจุดเซนทรอยด์เทียมในกลุ่มข้อมูลของกลุ่มข้อมูลด้อย ดังนั้น เซตของข้อมูลสังเคราะห์มีความหนาแน่นใกล้จุดเซนทรอยด์เทียมและมีความเบาบางไกลจุดเซนทรอยด์เทียม จากการกระจายของเซตข้อมูลดังกล่าว ตัวจำแนกกลุ่มข้อมูลเน้นการเรียนรู้บริเวณแกนมากกว่าบริเวณขอบของกลุ่มข้อมูล ผลการทดลองแสดงให้เห็นว่ากรอบการทำงานนี้พัฒนา ความแม่นยำ ค่าเอฟ (เทอมรวมของพรีซิชันและรีคอล) และ เอยูซี มากกว่าขั้นตอนวิธีสโมทและเซฟเลเวลสโมท | en |
dc.format.extent | 1147395 bytes | - |
dc.format.mimetype | application/pdf | - |
dc.language.iso | en | es |
dc.publisher | Chulalongkorn University | en |
dc.relation.uri | http://doi.org/10.14457/CU.the.2011.1325 | - |
dc.rights | Chulalongkorn University | en |
dc.subject | Data mining | en |
dc.subject | Cluster analysis | en |
dc.subject | Sampling | en |
dc.title | The density-based minority over-sampling framework for class imbalanced problems | en |
dc.title.alternative | กรอบการทำงานสุ่มเพิ่มกลุ่มข้อมูลด้อยด้วยความหนาแน่นสำหรับปัญหากลุ่มข้อมูลอสมดุล | en |
dc.type | Thesis | es |
dc.degree.name | Doctor of Philosophy | es |
dc.degree.level | Doctoral Degree | es |
dc.degree.discipline | Computer Science | es |
dc.degree.grantor | Chulalongkorn University | en |
dc.email.advisor | Krung.S@Chula.ac.th | - |
dc.email.advisor | lchidcha@chula.ac.th | - |
dc.identifier.DOI | 10.14457/CU.the.2011.1325 | - |
Appears in Collections: | Sci - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
chumphol_bu.pdf | 1.73 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.