DSpace Repository

Analyzing two opposing opinions from social media through static and contextualized word embeddings

Show simple item record

dc.contributor.advisor Attapol Thamrongrattanarit
dc.contributor.author Wassakorn Sarakul
dc.contributor.other Chulalongkorn University. Faculty of Arts
dc.date.accessioned 2023-08-04T07:28:24Z
dc.date.available 2023-08-04T07:28:24Z
dc.date.issued 2022
dc.identifier.uri https://cuir.car.chula.ac.th/handle/123456789/82993
dc.description Thesis (M.A.)--Chulalongkorn University, 2022
dc.description.abstract Public opinion analysis plays a vital role in various domains, such as marketing and politics. With the increasing volume of text data available through the internet and social media, efficient text-based analysis methods have become crucial. This study explores the application of static and contextualized word embeddings in word-based opinion analysis. The research questions focus on the impact of pre-training on static word embeddings, the efficacy of static and contextualized word embeddings in delineating opposing opinions, and the behavioral differences between the two embedding types. The findings suggest that pre-training improves embedding quality in small-sized datasets but may introduce noise in large-sized datasets. Additionally, word-based opinion analysis is more suitable for large-sized datasets, with un-pre-trained static word embeddings demonstrating superior performance. Static word embeddings are preferred over contextualized word embeddings due to their ability to capture syntactical relationships, while contextualized word embeddings provide semantic-related similar words. To apply both embedding types effectively, the study recommends using contextualized sequence embedding to predict the corpus, training word2vec on the predicted corpus, and analyzing the corpus based on the most similar words from the word2vec model.
dc.description.abstractalternative วิทยานิพนธ์เล่มนี้ศึกษาการวิเคราะห์ความเห็นสาธารณะจากข้อความในสื่อสังคมออนไลน์โดยใช้การฝังคำแบบสถิตและแบบอิงบริบท คำถามวิจัยของวิทยานิพนธ์นี้คือ การ pre-trained ส่งผลต่อการฝังตำแต่ละแบบอย่างไรเมื่อพิจารณาความแตกต่างของขนาดข้อมูลเปรียบเทียบกัน การฝังคำแบบใดที่มีประสิทธิภาพสูงสุดในการแยกความเห็นสองขั้วออกจากกัน และการฝังคำทั้งสองแบบมีพฤติกรรมต่างกันอย่างไรในการวิเคราะห์ความเห็นสาธารณะ ผลการศึกษาพบว่าการ pre-trained ส่งผลต่อคุณภาพของการฝังคำแบบสถิตเมื่อข้อมูลมีขนาดเล็ก แต่การ pre-trained กลับสร้างความแปรปรวนในข้อมูลขนาดใหญ่ ดังนั้นในข้อมูลขนาดใหญ่การใช้การฝังคำแบบสถิตโดยไม่ pre-trained จะให้ประสิทธิภาพสูงสุด การวิเคราะห์ความเห็นสาธารณะเหมาะกับข้อมูลขนาดใหญ่โดยใช้การฝังคำแบบสถิตโดยไม่ pre-trained มากกว่าการฝังคำแบบอิงบริบท เพราะการฝังคำแบบสถิตสามารถจับความสัมพันธ์ทางโครงสร้างประโยคซึ่งเป็นประโยชน์ต่อการวิเคราะห์ชนิดนี้ ส่วนการฝังคำแบบอิงบริบทจับความสัมพันธ์ทางความหมายได้ดีกว่า แต่ความสัมพันธ์ชนิดนี้ไม่เหมาะกับการใช้วิเคราะห์ความเห็น ดังนั้น แนะนำให้ใช้การฝังคำแบบสถิตทำนายฝั่งความเห็นแล้วใช้การฝังคำแบบสถิตหาคำใกล้เคียงกับคำที่ต้องการหาความเห็นมาใช้วิเคราะห์ความเห็นจะเป็นวิธีที่ดีที่สุด
dc.language.iso en
dc.publisher Chulalongkorn University
dc.relation.uri http://doi.org/10.58837/CHULA.THE.2022.217
dc.rights Chulalongkorn University
dc.subject.classification Arts and Humanities
dc.subject.classification Other service activities
dc.subject.classification Mother tongue
dc.title Analyzing two opposing opinions from social media through static and contextualized word embeddings
dc.title.alternative การวิเคราะห์ความเห็นสองขั้วจากสื่อสังคมผ่านการฝังคำแบบสถิตและ แบบอิงบริบท
dc.type Thesis
dc.degree.name Master of Arts
dc.degree.level Master's Degree
dc.degree.discipline Linguistics
dc.degree.grantor Chulalongkorn University
dc.identifier.DOI 10.58837/CHULA.THE.2022.217


Files in this item

This item appears in the following Collection(s)

Show simple item record