DSpace Repository

การจำแนกคำโต้ตอบข่าวไทยเป็นแบบชนิดหัวข้อโดยใช้เทคนิคการเรียนรู้ของเครื่อง

Show simple item record

dc.contributor.advisor ศุภกานต์ พิมลธเรศ
dc.contributor.advisor ศศิภา พันธุวดีธร
dc.contributor.author ศลิษา ชูชื่นพฤกษาพันธ์
dc.contributor.author ไอศวรรย์ ธโนศวรรย์
dc.contributor.other จุฬาลงกรณ์มหาวิทยาลัย. คณะวิทยาศาสตร์
dc.date.accessioned 2022-07-20T08:29:15Z
dc.date.available 2022-07-20T08:29:15Z
dc.date.issued 2563
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/79305
dc.description โครงงานเป็นส่วนหนึ่งของการศึกษาตามหลักสูตรปริญญาวิทยาศาสตรบัณฑิต สาขาวิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ปีการศึกษา 2563 en_US
dc.description.abstract รายการข่าวเป็นสื่อที่มีความสำคัญต่อการติดตามเหตุการณ์ใหม่และความเปลี่ยนแปลงของสังคมที่เกิดขึ้นตลอดเวลา ซึ่งรายการข่าวมักนำเสนอข่าวหัวข้อข่าวที่หลากหลายรวมอยู่ในรายการเดียวกัน โครงงานนี้มีจุดประสงค์เพื่อสร้างตัวจำแนกและเปรียบเทียบประสิทธิภาพการจำแนกคำโต้ตอบข่าวไทยเป็นแบบชนิดหัวข้อ ในการศึกษานี้ ตัวจำแนกชุดคำโต้ตอบภาษาไทยหกตัวที่ใช้ขั้นตอนวิธีที่แตกต่างกันได้นำมาใช้เพื่อจำแนกประเภทคำโต้ตอบข่าวไทยออกเป็นประเภทของข่าวหกประเภท ได้แก่ ข่าวการเมือง ข่าวเศรษฐกิจ ข่าวอาชญากรรม ข่าวบันเทิง ข่าวกีฬา และข่าวสิ่งแวดล้อม ตัวจำแนกประเภทห้าตัวได้แก่ นาอีฟเบย์แบบอเนกนาม เพื่อนบ้านใกล้ที่สุดเคตัว ป่าสุ่ม ซัพพอร์ตเวกเตอร์แมชชีน และเพอร์เซปตรอนหลายชั้นใช้เวกเตอร์คุณลักษณะที่ได้จากความถี่ของคำและความถี่ของเอกสารที่ผกผัน ทว่าตัวจำแนกอีกตัวคือเพอร์เซปตรอนหลายชั้นใช้เวกเตอร์ความน่าจะเป็นของหัวข้อที่ได้จากการจัดสรรของดีรีเคลท์แฝง ผลการทดลองพบว่าตัวจำแนกที่สามารถจำแนกคำโต้ตอบข่าวไทยได้ดีที่สุดคือ เพอร์เซปตรอนหลายชั้นที่ใช้เวกเตอร์คุณลักษณะบนพื้นฐานของความถี่ของคำและความถี่ของเอกสารที่ผกผัน และให้ค่าความเที่ยงเฉลี่ยเป็น 0.9622 ค่าความครบถ้วนเฉลี่ยเป็น 0.9609 และคะแนน F1 เฉลี่ยเป็น 0.9609 en_US
dc.description.abstractalternative News programs are an important media to keep up with new events and social changes which happen all the time and news programs mostly present various news topics in the same program. The purpose of this project is to create classifiers and compare performance of classifying Thai news dialogues as topic types. In this study, six Thai news dialogues classifiers using different algorithms were used to classify Thai news dialogues into six types of news, which are political news, economic news, crime news, entertainment news, sports news, and environmental news. Five classifiers, which are Multinomial Naive Bayes, K-Nearest Neighbors, Random Forest, Support Vector Machines, and Multi-Layer Perceptron used feature vectors obtained from Term Frequency-Inverse Document Frequency whereas the other classifier is Multi-Layer Perceptron using the topic probability vectors obtained from Latent Dirichlet Allocation. The experimental results showed that the best Thai news dialogues classifier was Multi-Layer Perceptron using feature vectors based on Term Frequency-Inverse Document Frequency and yielded an average precision of 0.9622, average recall of 0.9609, and average F1-score of 0.9609. en_US
dc.language.iso th en_US
dc.publisher จุฬาลงกรณ์มหาวิทยาลัย en_US
dc.rights จุฬาลงกรณ์มหาวิทยาลัย en_US
dc.subject การเรียนรู้ของเครื่อง en_US
dc.subject การรู้จำอักขระ (คอมพิวเตอร์) en_US
dc.subject ภาษาไทย -- คำและวลี en_US
dc.subject Machine learning en_US
dc.subject Character recognition en_US
dc.subject Thai language -- Terms and phrases en_US
dc.title การจำแนกคำโต้ตอบข่าวไทยเป็นแบบชนิดหัวข้อโดยใช้เทคนิคการเรียนรู้ของเครื่อง en_US
dc.title.alternative Classifying Thai News Dialogues into Topic Types Using Machine Learning Technique en_US
dc.type Senior Project en_US
dc.degree.grantor จุฬาลงกรณ์มหาวิทยาลัย en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record