Please use this identifier to cite or link to this item: http://cuir.car.chula.ac.th/handle/123456789/61104
Title: การปรับปรุงการจำแนกแบบกึ่งมีผู้สอนด้วยการวิเคราะห์กลุ่มข้อมูล
Other Titles: Improved semi-supervised classification with cluster Analysis
Authors: นรีพร พิรุฬห์ทรัพย์
Advisors: สุกรี สินธุภิญโญ
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: Sukree.S@Chula.ac.th
Subjects: การประมวลผลข้อความ
การทำดัชนีความหมายแฝง
Issue Date: 2558
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: ดุษฎีนิพนธ์นี้เสนอวิธีปรับปรุงการจำแนกแบบกึ่งมีผู้สอนซึ่งใช้ตัวอย่างมีป้ายกำกับและไม่มีป้ายกำกับเพื่อสร้างตัวจำแนก โดยปรับปรุงการติดป้ายกำกับให้แก่ตัวอย่างไม่มีป้ายกำกับซึ่งมักเกิดปัญหาเนื่องจากตัวอย่างจำนวนหนึ่งอาจถูกติดป้ายกำกับไม่ถูกต้อง และเมื่อนำตัวอย่างที่ติดป้ายกำกับผิดนั้นไปใช้สร้างตัวจำแนกสุดท้ายย่อมส่งผลเสียต่อประสิทธิภาพของตัวจำแนกกึ่งมีผู้สอนอย่างหลีกเลี่ยงไม่ได้ งานวิจัยส่วนแรกเสนอวิธีแบ่งกลุ่มย่อยตามค่าคุณลักษณะที่ถูกเลือกเพื่อปรับปรุงการเรียนรู้แบบกึ่งมีผู้สอนวิธีจัดกลุ่มและติดป้ายเพื่อปรับปรุงการติดป้ายกำกับตัวอย่างในกลุ่มคลาสปะปนผลการทดลองบนชุดข้อมูลการลดสิ่งรบกวนในเอกสารภาษาไทยแสดงให้เห็นว่า ความถูกต้องของการติดป้ายกำกับและความถูกต้องของตัวจำแนกสุดท้ายของวิธีที่นำเสนอดีกว่าวิธีติดป้ายกำกับตามคลาสส่วนใหญ่อย่างเห็นได้ชัด นอกจากนั้นวิธีที่นำเสนอยังสามารถลดสิ่งรบกวนในเอกสารภาษาไทยได้ดีกว่าวิธีการลดสิ่งรบกวนวิธีอื่น ๆ ที่เปรียบเทียบ งานวิจัยส่วนที่สองเสนอวิธีปรับปรุงการจำแนกกึ่งมีผู้สอนวิธีเรียนรู้ด้วยตนเองด้วยการวิเคราะห์ตัวอย่างที่ใช้ในการสอนด้วยการจัดกลุ่มข้อมูล ผลการทดลองแสดงให้เห็นว่าการใช้ตัวอย่างมีป้ายกำกับที่ไม่ครอบคลุมการกระจายตัวของตัวอย่างที่ใช้ในการสอนเพื่อสร้างตัวจำแนกกึ่งมีผู้สอน จะส่งผลต่อความถูกต้องของการจำแนกของตัวจำแนกสุดท้ายอย่างมีนัยสำคัญ งานวิจัยนี้จึงเสนอวิธีปรับปรุงตัวอย่างมีป้ายกำกับในบริเวณที่ไม่ครอบคลุมสองวิธี ได้แก่ การเพิ่มตัวอย่างมีป้ายกำกับโดยผู้ใช้และการเพิ่มตัวอย่างมีป้ายกำกับด้วยตัวจำแนกอื่น ผลการทดลองแสดงให้เห็นว่าวิธีที่นำเสนอสามารถเพิ่มค่าความถูกต้องในการทำนายของตัวจำแนกสุดท้ายอย่างมีนัยสำคัญ
Other Abstract: We proposed a method to improve semi-supervised classification that is a classification with both labeled and unlabeled data. However, using unlabeled data can seriously degrade the classifier performance because the unlabeled data may incorrectly label. We aim to improve accuracy of unlabeled data labeling in two approaches, i.e., cluster-and-label and self-training. In cluster-and-label approach, we propose an improved labeling method for labeling data in mixed-class clusters, namely, feature selected sub-cluster labeling. The results on noise reduction in Thai document image dataset show that the accuracy of labeling and classification of the proposed method are obviously greater than a majority vote labeling. The proposed method can also significantly better on reducing noise than the comparative noise reduction approaches. In self-training approach, we found that performance of self-training classifier will be ineffective, if distribution of labeled data does not consistent with all training data. We then propose a training data analysis with clustering and suggest to enhance the labeled data distribution by labeling data in unknown clusters. The extensive experiments on UCI and real-world datasets show that our proposed method considerably improves the accuracy of the semi-supervised classifier with statistical significance. We also suggest that this data preprocessing is a necessary step for semi-supervised self-training.
Description: วิทยานิพนธ์ (วศ.ด. )--จุฬาลงกรณ์มหาวิทยาลัย, 2558
Degree Name: วิศวกรรมศาสตรดุษฎีบัณฑิต
Degree Level: ปริญญาเอก
Degree Discipline: วิศวกรรมคอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/61104
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
5371808121.pdf1.03 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.