Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/50914
Title: การจำแนกกลุ่มข้อมูลโดยอัลกอริทึม CHAID
Other Titles: DATA CLASSIFICATION BY CHAID ALGORITHM
Authors: วิศรุต กิมชัยวงศ์
Advisors: สุพล ดุรงค์วัฒนา
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี
Advisor's Email: Supol.D@Chula.ac.th,supol@cbs.chula.ac.th
Issue Date: 2558
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: งานวิจัยฉบับนี้มีวัตถุประสงค์เพื่อศึกษากระบวนการจำแนกกลุ่มข้อมูลโดยอัลกอริทึม CHAID สำหรับข้อมูลระหว่างตัวแปร 2 ตัวแปรที่มีการแจกแจงแบบพหุนามและอยู่ในตารางการณ์จรสองทาง โดยพิจารณาความสามารถในการควบคุมความน่าจะเป็นของความผิดพลาดประเภทที่ 1 การแยก การรวม อำนาจการทดสอบ และร้อยละความถูกต้องของการจำแนกกลุ่มข้อมูลเป็นเกณฑ์ในการพิจารณาว่าอัลกอริทึมมีประสิทธิภาพในการจำแนกกลุ่มได้ดีหรือไม่ โดยข้อมูลที่ใช้ในการศึกษาจะจำลองภายใต้จำนวนกลุ่มของตัวแปร 2, 3, 4 และ 5, ขนาดข้อมูลเท่ากับ 200, 400 และ 1,200, ระดับความสัมพันธ์ของข้อมูลเท่ากับ 0, 0.05, 0.1 และ 0.3 และ ระดับนัยสำคัญเท่ากับ 0.05 และ 0.1 และสามารถสรุปผลการศึกษาได้ดังนี้ 1) อัลกอริทึม CHAID สามารถควบคุมความน่าจะเป็นของความผิดประเภทที่ 1 ได้ทุกกรณีเมื่อระดับความสัมพันธ์ของข้อมูลเท่ากับ 0 2) เมื่อพิจารณาที่ระดับความสัมพันธ์ของข้อมูลและระดับนัยสำคัญเท่ากัน เมื่อขนาดข้อมูลเพิ่มขึ้น อำนาจการทดสอบและการแยกจะมีแนวโน้มเพิ่มขึ้น ส่วนการรวมมีแนวโน้มลดลง 3) เมื่อพิจารณาที่ระดับความสัมพันธ์ของข้อมูลและขนาดข้อมูลเท่ากัน เมื่อระดับนัยสำคัญเพิ่มขึ้น อำนาจการทดสอบและการแยกจะมีแนวโน้มเพิ่มขึ้น ส่วนการรวมมีแนวโน้มลดลง 4) เมื่อพิจารณาที่ขนาดข้อมูลและระดับนัยสำคัญเท่ากัน เมื่อระดับความสัมพันธ์ของข้อมูลเพิ่มขึ้น อำนาจการทดสอบ การแยก และร้อยละความถูกต้องของการจำแนกกลุ่มข้อมูลจะมีแนวโน้มเพิ่มขึ้น ส่วนการรวมมีแนวโน้มลดลง นอกจากนี้อำนาจการทดสอบมีแนวโน้มลดลงเมื่อความแตกต่างระหว่างแถวกับหลักเพิ่มขึ้น และร้อยละความถูกต้องของการจำแนกกลุ่มข้อมูลมีแนวโน้มลดลงเมื่อจำนวนกลุ่มของตัวแปรตามเพิ่มขึ้น
Other Abstract: The purpose of this paper is to study the classification process of CHAID (Chi-Square Automatic Interaction Detection) algorithm for bivariate multinomial distribution in two way contingency table. Their capacity of controlling probability of type I error, splitting, merging, power of the test and classification rate are used as the measure how good the algorithm for its classification. The data are simulated under several situations. Each situation depends upon the numbers of levels in variable are 2, 3, 4 and 5, the sample size of each set of data are 200, 400, and 1,200, the strength of the relationship between the variables are 0, 0.05, 0.1 and 0.3 and lastly the levels of significant is used with 0.05 and 0.1. The results of this paper can be concluded as below. 1) CHAID algorithm can control probability of type I error in all cases when the strength of the relationship between the variables is 0. 2) If the strength of the relationship between the variables and the significant levels are equal when the number of sample size increases, then power of the test and the splitting tend to increase and the merging tends to decrease. 3) If the strength of the relationship between the variables and the number of sample size are equal when the significant levels increases, then power of the test and the splitting tend to increase and the merging tends to decrease. 4) If the number of sample size and the significant levels are equal when the strength of the relationship between the variables increases, then power of the test, the splitting and the classification rate tend to increase and the merging tends to decrease. Also, power of the test tends to decrease when the difference of rows and column increase and the classification rate tends to decrease when the number of levels in dependent variable increases.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2558
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: สถิติ
URI: http://cuir.car.chula.ac.th/handle/123456789/50914
Type: Thesis
Appears in Collections:Acctn - Theses

Files in This Item:
File Description SizeFormat 
5681590126.pdf3.3 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.