DSpace Repository

Collocation-based retokenization methods for latent dirichlet allocation topic models

Show simple item record

dc.contributor.advisor Attapol Thamrongrattanarit
dc.contributor.author Jin Cheevaprawatdomrong
dc.contributor.other Chulalongkorn University. Faculty of Arts
dc.date.accessioned 2022-11-03T03:09:53Z
dc.date.available 2022-11-03T03:09:53Z
dc.date.issued 2021
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/81118
dc.description Independent Study (M.A.)--Chulalongkorn University, 2021
dc.description.abstract Latent Dirichlet Allocation (LDA) discovers hidden themes in documents by using words as input. Past studies show that merging the words into collocation improves topic coherence in English. However, there are still questions about the best merging strategies, especially in the languages without clear word boundaries, such as Thai and Chinese. We compare chi-squared measure, t-statistics, and raw frequency strategies, and show that merging input tokens with appropriate strategies can improve the goodness of fit and topic coherence of the model.
dc.description.abstractalternative การจัดสรรดีริชเลแฝงสามารถค้นพบหัวข้อต่างๆ ที่แฝงอยู่ในเอกสารโดยใช้คำเป็นสิ่งที่ป้อนเข้า งานวิจัยที่ผ่านมาแสดงว่าการรวมคำเป็นคำปรากฎร่วมสามารถทำให้หัวข้อที่ได้มีความเชื่อมโยงกันมากขึ้นในภาษาอังกฤษ แต่ยังคงมีคำถามว่าวิธีใดเป็นวิธีที่ดีที่สุดที่จะรวมคำเข้าด้วยกัน โดยเฉพาะอย่างยิ่งในภาษาที่ไม่มีสัญลักษณ์แบ่งคำที่ชัดเจนอย่างภาษาจีนและภาษาไทย ผู้ดำเนินงานวิจัยได้เปรียบเทียบวิธี การทดสอบไคสแควร์ สถิติทดสอบที และความถี่ และแสดงว่าการรวมคำที่ป้อนเข้าด้วยวิธีที่เหมาะสมจะสามารถทำให้ความเหมาะสมกับข้อมูลของแบบจำลอง (goodness of fit) และความเชื่อมโยงกันของหัวข้อของแบบจำลองดีขึ้น
dc.language.iso en
dc.publisher Chulalongkorn University
dc.relation.uri http://doi.org/10.58837/CHULA.IS.2021.103
dc.rights Chulalongkorn University
dc.subject.classification Arts and Humanities
dc.title Collocation-based retokenization methods for latent dirichlet allocation topic models
dc.title.alternative วิธีการตัดหน่วยใหม่โดยอิงการปรากฏร่วมเพื่อใช้ในแบบจำลองการแจงหัวข้อด้วยการแจกแจงดีริชเลแฝง
dc.type Independent Study
dc.degree.name Master of Arts
dc.degree.level Master's Degree
dc.degree.discipline Linguistics
dc.degree.grantor Chulalongkorn University
dc.identifier.DOI 10.58837/CHULA.IS.2021.103


Files in this item

This item appears in the following Collection(s)

Show simple item record