Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/81118
Title: Collocation-based retokenization methods for latent dirichlet allocation topic models
Other Titles: วิธีการตัดหน่วยใหม่โดยอิงการปรากฏร่วมเพื่อใช้ในแบบจำลองการแจงหัวข้อด้วยการแจกแจงดีริชเลแฝง
Authors: Jin Cheevaprawatdomrong
Advisors: Attapol Thamrongrattanarit
Other author: Chulalongkorn University. Faculty of Arts
Issue Date: 2021
Publisher: Chulalongkorn University
Abstract: Latent Dirichlet Allocation (LDA) discovers hidden themes in documents by using words as input. Past studies show that merging the words into collocation improves topic coherence in English. However, there are still questions about the best merging strategies, especially in the languages without clear word boundaries, such as Thai and Chinese. We compare chi-squared measure, t-statistics, and raw frequency strategies, and show that merging input tokens with appropriate strategies can improve the goodness of fit and topic coherence of the model.
Other Abstract: การจัดสรรดีริชเลแฝงสามารถค้นพบหัวข้อต่างๆ ที่แฝงอยู่ในเอกสารโดยใช้คำเป็นสิ่งที่ป้อนเข้า งานวิจัยที่ผ่านมาแสดงว่าการรวมคำเป็นคำปรากฎร่วมสามารถทำให้หัวข้อที่ได้มีความเชื่อมโยงกันมากขึ้นในภาษาอังกฤษ แต่ยังคงมีคำถามว่าวิธีใดเป็นวิธีที่ดีที่สุดที่จะรวมคำเข้าด้วยกัน โดยเฉพาะอย่างยิ่งในภาษาที่ไม่มีสัญลักษณ์แบ่งคำที่ชัดเจนอย่างภาษาจีนและภาษาไทย ผู้ดำเนินงานวิจัยได้เปรียบเทียบวิธี การทดสอบไคสแควร์ สถิติทดสอบที และความถี่ และแสดงว่าการรวมคำที่ป้อนเข้าด้วยวิธีที่เหมาะสมจะสามารถทำให้ความเหมาะสมกับข้อมูลของแบบจำลอง (goodness of fit) และความเชื่อมโยงกันของหัวข้อของแบบจำลองดีขึ้น
Description: Independent Study (M.A.)--Chulalongkorn University, 2021
Degree Name: Master of Arts
Degree Level: Master's Degree
Degree Discipline: Linguistics
URI: http://cuir.car.chula.ac.th/handle/123456789/81118
URI: http://doi.org/10.58837/CHULA.IS.2021.103
metadata.dc.identifier.DOI: 10.58837/CHULA.IS.2021.103
Type: Independent Study
Appears in Collections:Arts - Independent Studies

Files in This Item:
File Description SizeFormat 
6382008322.pdf7.7 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.