Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/51750
Title: Decision Tree-Based Learning Using Multi-Attributed Lens
Other Titles: การเรียนรู้ด้วยต้นไม้การตัดสินใจโดยใช้เลนส์หลายลักษณะประจำ
Authors: Charoenchai Sirisomboonrat
Advisors: Krung Sinapiromsaranl
Other author: Chulalongkorn University. Faculty of Science
Advisor's Email: krung@math.sc.chula.ac.th
Subjects: Decision Tree
Multi-Attributed Lens
Core Vector
Classification
Decision support systems
Mathematics -- Data processing
ระบบสนับสนุนการตัดสินใจ
คณิตศาสตร์ -- การประมวลผลข้อมูล
Issue Date: 2013
Publisher: Chulalongkorn University
Abstract: Decision tree induction is one of the popular and widely used method for classification. In a general decision tree algorithm, a dataset is split into partitions by the attribute which provides the best information measure value. Then, each partition recursively finds the best attribute until the terminal criteria are met. In this thesis, a new type of decision tree algorithm, multi-attributed lens, is presented. Instead of using one attribute at a time, all attributes are used to create a lens which is further used to split a dataset. A lens is generated from the farthest pair which splits a dataset into two regions. The first region is the outside lens region where its instances will be labeled as the opposite class of the farthest instances. The second region is the inside lens region where its instances need to be further partitioned. In splitting the instances of the inside lens, the best splitting point is computed by measuring the information measure of their projection values onto the core vector which is created from the farthest pair. Then, newly created partitions are recursively called until the termination conditions are met. Empirically, t-tests of the performance measures are gathered on the UCI datasets and the results show that accuracy of this algorithm is more statistically significant than C4.5 decision tree, k nearest neighbor, naïve Bayes, support vector machine and logistic regression in Blood Transfusion Service Center, Breast Cancer Wisconsin (Original), Breast Cancer Wisconsin (Prognostic), Haberman's Survival, ILPD (Indian Liver Patient Dataset), Credit Approval, Hepatitis and Horse Colic datasets.
Other Abstract: การสร้างต้นไม้การตัดสินใจเป็นหนึ่งในปัญหาการจำแนกข้อมูลที่เป็นที่รู้จักและถูกใช้กันอย่างกว้างขวาง ในกระบวนการสร้างต้นไม้การตัดสินใจชุดข้อมูลจะถูกแบ่งกั้น ด้วยลักษณะประจำที่ถูกเลือกว่าดีที่สุดจากตัววัดสารสนเทศ หลังจากนั้นจะมีการใช้ลักษณะประจำที่ดีที่สุดในผลแบ่งกั้นมาแบ่งข้อมูลซ้า ๆ จนกระทั่งเข้าเงื่อนไขการหยุด ในวิทยานิพนธ์เล่มนี้เสนอแนวคิดใหม่ในการสร้างตันไม้การตัดสินใจโดยใช้เลนส์หลายลักษณะประจา แทนที่จะใช้ลักษณะประจำเพียงหนึ่งลักษณะในการแบ่งทุกครั้ง ลักษณะประจำทุกตัวจะถูกนำมาใช้ร่วมกันในการแบ่งชุดข้อมูล โดยจะหาคู่ระเบียนในชั้นเป้าหมายเดียวกันที่อยู่ห่างกันมากที่สุดมาสร้างเลนส์เพื่อนำมาแบ่งชุดข้อมูลเป็นสองส่วน โดยส่วนแรกคือส่วนของข้อมูลที่อยู่นอกเลนส์ซึ่งจะเป็นกลุ่มข้อมูลที่มีชั้นเป้าหมายตรงข้ามกับชั้นเป้าหมายของคู่ระเบียนที่ถูกนามาใช้สร้างเลนส์นั้น และส่วนที่สองคือส่วนของข้อมูลที่อยู่ในเลนส์ซึ่งจำเป็นที่จะต้องถูกแบ่งต่อไป โดยการแบ่งในส่วนที่อยู่ในเลนส์จะฉายข้อมูลในส่วนดังกล่าวลงบนแกนของเวกเตอร์หลักที่สร้างมาจากคู่ระเบียนที่ไกลที่สุดและจะเลือกจุดแบ่งที่ดีที่สุดบนแกนดังกล่าวจากการวัดข้อมูลสารสนเทศของค่าที่ได้จากการฉาย ในการแบ่งส่วนนี้จะได้ข้อมูลย่อยสองส่วนเกิดขึ้นซึ่งแต่ละส่วนจะถูกดาเนินการตามขั้นตอนที่กล่าวมาซ้าจนกระทั่งเข้าเงื่อนไขการหยุด ในการทดลอง t-tests ถูกใช้ทดสอบกับตัววัดประสิทธิภาพในชุดข้อมูลของ UCI และผลการทดลองแสดงให้เห็นว่าความแม่นยาของวิธีการจาแนกชุดข้อมูลด้วยขั้นตอนวิธีนี้ดีกว่ากว่าต้นไม้การตัดสินใจแบบ C4.5, k nearest neighbor, naïve Bayes, support vector machine และ logistic regression อย่างมีนัยสาคัญเชิงสถิติในชุดข้อมูล Blood Transfusion Service Center, Breast Cancer Wisconsin (Original), Breast Cancer Wisconsin (Prognostic), Haberman's Survival, ILPD (Indian Liver Patient Dataset), Credit Approval, Hepatitis และ Horse Colic
Description: Thesis (M.Sc.)--Chulalongkorn University, 2013
Degree Name: Master of Science
Degree Level: Master's Degree
Degree Discipline: Computer Science and Information Technology
URI: http://cuir.car.chula.ac.th/handle/123456789/51750
URI: http://doi.org/10.14457/CU.the.2013.1675
metadata.dc.identifier.DOI: 10.14457/CU.the.2013.1675
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
charoenchai_si.pdf2.45 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.