Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/60010
Title: การสร้างคลังศัพท์บอกความรู้สึกในภาษาไทยจากบทวิจารณ์ออนไลน์
Other Titles: GENERATING THAI SENTIMENT LEXICON FROM ONLINE REVIEWS
Authors: อิสรภาพ ล้อรัตนไชยยงค์
Advisors: วิโรจน์ อรุณมานะกุล
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์
Advisor's Email: Wirote.A@Chula.ac.th,awirote@gmail.com
Issue Date: 2560
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: งานวิจัยนี้มีจุดมุ่งหมายเพื่อสร้างคลังศัพท์บอกความรู้สึกจากบทวิจารณ์สินค้าและบริการออนไลน์ในภาษาไทยโดยใช้วิธีการประมวลภาษาธรรมชาติตามแนวทางการวิจัยด้านภาษาศาสตร์คอมพิวเตอร์ บทวิจารณ์ที่เลือกใช้มาจาก 3 แหล่งข้อมูล ได้แก่ บทวิจารณ์โรงแรมของ Agoda บทวิจารณ์ภาพยนตร์ของ MajorCineplex และบทวิจารณ์แอปพลิเคชันโทรศัพท์มือถือของ Microsoft ซึ่งมีการให้คะแนนร่วมกับการเขียนเนื้อหาบทวิจารณ์ การวิเคราะห์หาคำบอกความรู้สึกจากเนื้อหาบทวิจารณ์อาศัยสมมติฐานว่าคำบอกความรู้สึกจะเกิดร่วมกับคำบอกลักษณะสินค้าซึ่งเป็นคำในกลุ่มคำนามที่มีความถี่การปรากฏสูง การระบุขั้วความรู้สึกบวกลบของคำบอกความรู้สึกจะดูจากค่า tf-idf เชิงบวกและเชิงลบซึ่งคำนวณจากความถี่การปรากฏในกลุ่มข้อมูลบทวิจารณ์ที่มีการให้คะแนนเชิงบวกและเชิงลบตามลำดับ กระบวนการรวบรวมคำบอกความรู้สึกในงานวิจัยนี้ทดลองใช้วิธีการต่างๆ ในสามขั้นตอน คือ การกำหนดชนิดคำบอกความรู้สึก การกำหนดค่าขั้นต่ำของลำดับความถี่ของคำบอกลักษณะสินค้า และการกำหนดค่า tf-idf ขั้นต่ำในการคัดเลือกคำบอกความรู้สึกขั้วบวกและขั้วลบ ผลที่ได้คือชุดคำบอกความรู้สึกที่แตกต่างกัน 112 ชุดจากแต่ละโดเมน จากนั้นชุดคำทั้งหมดจะนำไปทดสอบผลการวิเคราะห์ความรู้สึกเพื่อคัดเลือกชุดคำที่ดีที่สุดสำหรับการสร้างคลังศัพท์ ชุดคำบอกความรู้สึกที่ให้ผลการวิเคราะห์ดีที่สุดมาจากการใช้คำในกลุ่มคำกริยา คำคุณศัพท์ และคำวิเศษณ์เป็นคำบอกความรู้สึก เลือกใช้คำบอกลักษณะที่มีลำดับเปอร์เซ็นต์ไทล์ของความถี่ตั้งแต่ 90 ขึ้นไป และคัดเลือกคำบอกความรู้สึกที่มีผลรวมของค่า tf-idf เชิงบวกและลบมากกว่าหรือเท่ากับ 0 หลังจากนั้นคำบอกความรู้สึกในคลังศัพท์ที่ได้จากแต่ละโดเมนจะนำมาจำแนกประเภทเป็นคำบอกความรู้สึกแบบเจาะจงโดเมนและแบบไม่เจาะจงโดเมน รายการคำที่ได้จะนำมาวิเคราะห์โดยเปรียบเทียบการปรากฏในเนื้อหาบทวิจารณ์โดเมนต่างๆ เพื่อศึกษาความแตกต่างของการเลือกใช้คำบอกความรู้สึกในบทวิจารณ์สินค้าของแต่ละโดเมน ผลการวิเคราะห์พบว่าการใช้คำบอกความรู้สึกของผู้เขียนบทวิจารณ์จะเปลี่ยนไปตามความคาดหวังของผู้ใช้สินค้าหรือบริการและสไตล์การเขียนบทวิจารณ์ในโดเมนนั้นๆ นอกจากนี้การวิเคราะห์ข้อมูลบทวิจารณ์ยังแสดงให้เห็นถึงปัจจัยสำคัญต่างๆ ที่ส่งผลต่อรายการคำบอกความรู้สึกในคลังศัพท์ที่ได้จากงานวิจัยนี้ ซึ่งอาจนำไปใช้ปรับปรุงวิธีการสร้างคลังศัพท์ให้ดีขึ้นได้ ประกอบด้วย การปรากฏของคำบอกลักษณะสินค้า ช่วงคะแนนของบทวิจารณ์เชิงบวกและเชิงลบ แรงจูงใจในการเขียนบทวิจารณ์ และการเลือกใช้สินค้าหรือบริการในโดเมนต่างๆ
Other Abstract: This research aims to build up a sentiment lexicon from online product reviews in Thai. The task lies in the area of computational linguistics which involves the use of natural language processing techniques. The data is gathered from 3 domains of online product reviews written in Thai language: hotel reviews from Agoda, movie reviews from MajorCineplex, and mobile-phone application reviews from Microsoft. The data consists of review content and rating scores. Sentiment words are collected with an assumption that they normally occur together with feature words, frequent nouns which represent features of a product. The polarity of each sentiment word is determined by the tf-idf values calculated from the frequencies in positive and negative data. Three steps of data processing are experimented with various settings, i.e. percentile thresholds of noun frequency for feature word selection, combinations of part of speech for sentiment word detection, and the thresholds of the combined tf-idf value of a qualified sentiment word, resulting in 112 different sentiment lexicons for one domain. Every lexicon is then used to perform a sentiment analysis task to find out which one gives the most accurate result. By assessing the overall results across domains, the most effective lexicons are built upon the following settings: set the feature word’s threshold at 90th percentile rank; treat verbs, adjectives, and adverbs as sentiment words; and use any sentiment word that has the combined tf-idf of 0 and above. The next step is exploring the list of sentiment words from each domain in order to distinguish between the domain-dependent and domain-independent type. By examining the contrasting choices of sentiment words between domains, this research concludes that occurrence of a sentiment word depends on customers’ expectations and writing styles. Additionally, a number of important factors could pose a challenge in the construction of a sentiment lexicon as done in this research. Such factors are feature word occurrence, the range of positive and negative rating scores, the motivation behind review submissions, and customers’ selective behaviour.
Description: วิทยานิพนธ์ (อ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2560
Degree Name: อักษรศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: ภาษาศาสตร์
URI: http://cuir.car.chula.ac.th/handle/123456789/60010
URI: http://doi.org/10.58837/CHULA.THE.2017.1166
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2017.1166
Type: Thesis
Appears in Collections:Arts - Theses

Files in This Item:
File Description SizeFormat 
5780196522.pdf3.34 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.