การจำแนกคำโต้ตอบข่าวไทยเป็นแบบชนิดหัวข้อโดยใช้เทคนิคการเรียนรู้ของเครื่อง

ศลิษา ชูชื่นพฤกษาพันธ์; ไอศวรรย์ ธโนศวรรย์

dc.contributor.advisor	ศุภกานต์ พิมลธเรศ
dc.contributor.advisor	ศศิภา พันธุวดีธร
dc.contributor.author	ศลิษา ชูชื่นพฤกษาพันธ์
dc.contributor.author	ไอศวรรย์ ธโนศวรรย์
dc.contributor.other	จุฬาลงกรณ์มหาวิทยาลัย. คณะวิทยาศาสตร์
dc.date.accessioned	2022-07-20T08:29:15Z
dc.date.available	2022-07-20T08:29:15Z
dc.date.issued	2563
dc.identifier.uri	http://cuir.car.chula.ac.th/handle/123456789/79305
dc.description	โครงงานเป็นส่วนหนึ่งของการศึกษาตามหลักสูตรปริญญาวิทยาศาสตรบัณฑิต สาขาวิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ปีการศึกษา 2563	en_US
dc.description.abstract	รายการข่าวเป็นสื่อที่มีความสำคัญต่อการติดตามเหตุการณ์ใหม่และความเปลี่ยนแปลงของสังคมที่เกิดขึ้นตลอดเวลา ซึ่งรายการข่าวมักนำเสนอข่าวหัวข้อข่าวที่หลากหลายรวมอยู่ในรายการเดียวกัน โครงงานนี้มีจุดประสงค์เพื่อสร้างตัวจำแนกและเปรียบเทียบประสิทธิภาพการจำแนกคำโต้ตอบข่าวไทยเป็นแบบชนิดหัวข้อ ในการศึกษานี้ ตัวจำแนกชุดคำโต้ตอบภาษาไทยหกตัวที่ใช้ขั้นตอนวิธีที่แตกต่างกันได้นำมาใช้เพื่อจำแนกประเภทคำโต้ตอบข่าวไทยออกเป็นประเภทของข่าวหกประเภท ได้แก่ ข่าวการเมือง ข่าวเศรษฐกิจ ข่าวอาชญากรรม ข่าวบันเทิง ข่าวกีฬา และข่าวสิ่งแวดล้อม ตัวจำแนกประเภทห้าตัวได้แก่ นาอีฟเบย์แบบอเนกนาม เพื่อนบ้านใกล้ที่สุดเคตัว ป่าสุ่ม ซัพพอร์ตเวกเตอร์แมชชีน และเพอร์เซปตรอนหลายชั้นใช้เวกเตอร์คุณลักษณะที่ได้จากความถี่ของคำและความถี่ของเอกสารที่ผกผัน ทว่าตัวจำแนกอีกตัวคือเพอร์เซปตรอนหลายชั้นใช้เวกเตอร์ความน่าจะเป็นของหัวข้อที่ได้จากการจัดสรรของดีรีเคลท์แฝง ผลการทดลองพบว่าตัวจำแนกที่สามารถจำแนกคำโต้ตอบข่าวไทยได้ดีที่สุดคือ เพอร์เซปตรอนหลายชั้นที่ใช้เวกเตอร์คุณลักษณะบนพื้นฐานของความถี่ของคำและความถี่ของเอกสารที่ผกผัน และให้ค่าความเที่ยงเฉลี่ยเป็น 0.9622 ค่าความครบถ้วนเฉลี่ยเป็น 0.9609 และคะแนน F1 เฉลี่ยเป็น 0.9609	en_US
dc.description.abstractalternative	News programs are an important media to keep up with new events and social changes which happen all the time and news programs mostly present various news topics in the same program. The purpose of this project is to create classifiers and compare performance of classifying Thai news dialogues as topic types. In this study, six Thai news dialogues classifiers using different algorithms were used to classify Thai news dialogues into six types of news, which are political news, economic news, crime news, entertainment news, sports news, and environmental news. Five classifiers, which are Multinomial Naive Bayes, K-Nearest Neighbors, Random Forest, Support Vector Machines, and Multi-Layer Perceptron used feature vectors obtained from Term Frequency-Inverse Document Frequency whereas the other classifier is Multi-Layer Perceptron using the topic probability vectors obtained from Latent Dirichlet Allocation. The experimental results showed that the best Thai news dialogues classifier was Multi-Layer Perceptron using feature vectors based on Term Frequency-Inverse Document Frequency and yielded an average precision of 0.9622, average recall of 0.9609, and average F1-score of 0.9609.	en_US
dc.language.iso	th	en_US
dc.publisher	จุฬาลงกรณ์มหาวิทยาลัย	en_US
dc.rights	จุฬาลงกรณ์มหาวิทยาลัย	en_US
dc.subject	การเรียนรู้ของเครื่อง	en_US
dc.subject	การรู้จำอักขระ (คอมพิวเตอร์)	en_US
dc.subject	ภาษาไทย -- คำและวลี	en_US
dc.subject	Machine learning	en_US
dc.subject	Character recognition	en_US
dc.subject	Thai language -- Terms and phrases	en_US
dc.title	การจำแนกคำโต้ตอบข่าวไทยเป็นแบบชนิดหัวข้อโดยใช้เทคนิคการเรียนรู้ของเครื่อง	en_US
dc.title.alternative	Classifying Thai News Dialogues into Topic Types Using Machine Learning Technique	en_US
dc.type	Senior Project	en_US
dc.degree.grantor	จุฬาลงกรณ์มหาวิทยาลัย	en_US