DSpace Repository

การสร้างคลังศัพท์บอกความรู้สึกในภาษาไทยจากบทวิจารณ์ออนไลน์

Show simple item record

dc.contributor.advisor วิโรจน์ อรุณมานะกุล
dc.contributor.author อิสรภาพ ล้อรัตนไชยยงค์
dc.contributor.other จุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์
dc.date.accessioned 2018-09-14T06:04:49Z
dc.date.available 2018-09-14T06:04:49Z
dc.date.issued 2560
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/60010
dc.description วิทยานิพนธ์ (อ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2560
dc.description.abstract งานวิจัยนี้มีจุดมุ่งหมายเพื่อสร้างคลังศัพท์บอกความรู้สึกจากบทวิจารณ์สินค้าและบริการออนไลน์ในภาษาไทยโดยใช้วิธีการประมวลภาษาธรรมชาติตามแนวทางการวิจัยด้านภาษาศาสตร์คอมพิวเตอร์ บทวิจารณ์ที่เลือกใช้มาจาก 3 แหล่งข้อมูล ได้แก่ บทวิจารณ์โรงแรมของ Agoda บทวิจารณ์ภาพยนตร์ของ MajorCineplex และบทวิจารณ์แอปพลิเคชันโทรศัพท์มือถือของ Microsoft ซึ่งมีการให้คะแนนร่วมกับการเขียนเนื้อหาบทวิจารณ์ การวิเคราะห์หาคำบอกความรู้สึกจากเนื้อหาบทวิจารณ์อาศัยสมมติฐานว่าคำบอกความรู้สึกจะเกิดร่วมกับคำบอกลักษณะสินค้าซึ่งเป็นคำในกลุ่มคำนามที่มีความถี่การปรากฏสูง การระบุขั้วความรู้สึกบวกลบของคำบอกความรู้สึกจะดูจากค่า tf-idf เชิงบวกและเชิงลบซึ่งคำนวณจากความถี่การปรากฏในกลุ่มข้อมูลบทวิจารณ์ที่มีการให้คะแนนเชิงบวกและเชิงลบตามลำดับ กระบวนการรวบรวมคำบอกความรู้สึกในงานวิจัยนี้ทดลองใช้วิธีการต่างๆ ในสามขั้นตอน คือ การกำหนดชนิดคำบอกความรู้สึก การกำหนดค่าขั้นต่ำของลำดับความถี่ของคำบอกลักษณะสินค้า และการกำหนดค่า tf-idf ขั้นต่ำในการคัดเลือกคำบอกความรู้สึกขั้วบวกและขั้วลบ ผลที่ได้คือชุดคำบอกความรู้สึกที่แตกต่างกัน 112 ชุดจากแต่ละโดเมน จากนั้นชุดคำทั้งหมดจะนำไปทดสอบผลการวิเคราะห์ความรู้สึกเพื่อคัดเลือกชุดคำที่ดีที่สุดสำหรับการสร้างคลังศัพท์ ชุดคำบอกความรู้สึกที่ให้ผลการวิเคราะห์ดีที่สุดมาจากการใช้คำในกลุ่มคำกริยา คำคุณศัพท์ และคำวิเศษณ์เป็นคำบอกความรู้สึก เลือกใช้คำบอกลักษณะที่มีลำดับเปอร์เซ็นต์ไทล์ของความถี่ตั้งแต่ 90 ขึ้นไป และคัดเลือกคำบอกความรู้สึกที่มีผลรวมของค่า tf-idf เชิงบวกและลบมากกว่าหรือเท่ากับ 0 หลังจากนั้นคำบอกความรู้สึกในคลังศัพท์ที่ได้จากแต่ละโดเมนจะนำมาจำแนกประเภทเป็นคำบอกความรู้สึกแบบเจาะจงโดเมนและแบบไม่เจาะจงโดเมน รายการคำที่ได้จะนำมาวิเคราะห์โดยเปรียบเทียบการปรากฏในเนื้อหาบทวิจารณ์โดเมนต่างๆ เพื่อศึกษาความแตกต่างของการเลือกใช้คำบอกความรู้สึกในบทวิจารณ์สินค้าของแต่ละโดเมน ผลการวิเคราะห์พบว่าการใช้คำบอกความรู้สึกของผู้เขียนบทวิจารณ์จะเปลี่ยนไปตามความคาดหวังของผู้ใช้สินค้าหรือบริการและสไตล์การเขียนบทวิจารณ์ในโดเมนนั้นๆ นอกจากนี้การวิเคราะห์ข้อมูลบทวิจารณ์ยังแสดงให้เห็นถึงปัจจัยสำคัญต่างๆ ที่ส่งผลต่อรายการคำบอกความรู้สึกในคลังศัพท์ที่ได้จากงานวิจัยนี้ ซึ่งอาจนำไปใช้ปรับปรุงวิธีการสร้างคลังศัพท์ให้ดีขึ้นได้ ประกอบด้วย การปรากฏของคำบอกลักษณะสินค้า ช่วงคะแนนของบทวิจารณ์เชิงบวกและเชิงลบ แรงจูงใจในการเขียนบทวิจารณ์ และการเลือกใช้สินค้าหรือบริการในโดเมนต่างๆ
dc.description.abstractalternative This research aims to build up a sentiment lexicon from online product reviews in Thai. The task lies in the area of computational linguistics which involves the use of natural language processing techniques. The data is gathered from 3 domains of online product reviews written in Thai language: hotel reviews from Agoda, movie reviews from MajorCineplex, and mobile-phone application reviews from Microsoft. The data consists of review content and rating scores. Sentiment words are collected with an assumption that they normally occur together with feature words, frequent nouns which represent features of a product. The polarity of each sentiment word is determined by the tf-idf values calculated from the frequencies in positive and negative data. Three steps of data processing are experimented with various settings, i.e. percentile thresholds of noun frequency for feature word selection, combinations of part of speech for sentiment word detection, and the thresholds of the combined tf-idf value of a qualified sentiment word, resulting in 112 different sentiment lexicons for one domain. Every lexicon is then used to perform a sentiment analysis task to find out which one gives the most accurate result. By assessing the overall results across domains, the most effective lexicons are built upon the following settings: set the feature word’s threshold at 90th percentile rank; treat verbs, adjectives, and adverbs as sentiment words; and use any sentiment word that has the combined tf-idf of 0 and above. The next step is exploring the list of sentiment words from each domain in order to distinguish between the domain-dependent and domain-independent type. By examining the contrasting choices of sentiment words between domains, this research concludes that occurrence of a sentiment word depends on customers’ expectations and writing styles. Additionally, a number of important factors could pose a challenge in the construction of a sentiment lexicon as done in this research. Such factors are feature word occurrence, the range of positive and negative rating scores, the motivation behind review submissions, and customers’ selective behaviour.
dc.language.iso th
dc.publisher จุฬาลงกรณ์มหาวิทยาลัย
dc.relation.uri http://doi.org/10.58837/CHULA.THE.2017.1166
dc.rights จุฬาลงกรณ์มหาวิทยาลัย
dc.title การสร้างคลังศัพท์บอกความรู้สึกในภาษาไทยจากบทวิจารณ์ออนไลน์
dc.title.alternative GENERATING THAI SENTIMENT LEXICON FROM ONLINE REVIEWS
dc.type Thesis
dc.degree.name อักษรศาสตรมหาบัณฑิต
dc.degree.level ปริญญาโท
dc.degree.discipline ภาษาศาสตร์
dc.degree.grantor จุฬาลงกรณ์มหาวิทยาลัย
dc.email.advisor Wirote.A@Chula.ac.th,awirote@gmail.com
dc.identifier.DOI 10.58837/CHULA.THE.2017.1166


Files in this item

This item appears in the following Collection(s)

Show simple item record