Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/81118
Title: | Collocation-based retokenization methods for latent dirichlet allocation topic models |
Other Titles: | วิธีการตัดหน่วยใหม่โดยอิงการปรากฏร่วมเพื่อใช้ในแบบจำลองการแจงหัวข้อด้วยการแจกแจงดีริชเลแฝง |
Authors: | Jin Cheevaprawatdomrong |
Advisors: | Attapol Thamrongrattanarit |
Other author: | Chulalongkorn University. Faculty of Arts |
Issue Date: | 2021 |
Publisher: | Chulalongkorn University |
Abstract: | Latent Dirichlet Allocation (LDA) discovers hidden themes in documents by using words as input. Past studies show that merging the words into collocation improves topic coherence in English. However, there are still questions about the best merging strategies, especially in the languages without clear word boundaries, such as Thai and Chinese. We compare chi-squared measure, t-statistics, and raw frequency strategies, and show that merging input tokens with appropriate strategies can improve the goodness of fit and topic coherence of the model. |
Other Abstract: | การจัดสรรดีริชเลแฝงสามารถค้นพบหัวข้อต่างๆ ที่แฝงอยู่ในเอกสารโดยใช้คำเป็นสิ่งที่ป้อนเข้า งานวิจัยที่ผ่านมาแสดงว่าการรวมคำเป็นคำปรากฎร่วมสามารถทำให้หัวข้อที่ได้มีความเชื่อมโยงกันมากขึ้นในภาษาอังกฤษ แต่ยังคงมีคำถามว่าวิธีใดเป็นวิธีที่ดีที่สุดที่จะรวมคำเข้าด้วยกัน โดยเฉพาะอย่างยิ่งในภาษาที่ไม่มีสัญลักษณ์แบ่งคำที่ชัดเจนอย่างภาษาจีนและภาษาไทย ผู้ดำเนินงานวิจัยได้เปรียบเทียบวิธี การทดสอบไคสแควร์ สถิติทดสอบที และความถี่ และแสดงว่าการรวมคำที่ป้อนเข้าด้วยวิธีที่เหมาะสมจะสามารถทำให้ความเหมาะสมกับข้อมูลของแบบจำลอง (goodness of fit) และความเชื่อมโยงกันของหัวข้อของแบบจำลองดีขึ้น |
Description: | Independent Study (M.A.)--Chulalongkorn University, 2021 |
Degree Name: | Master of Arts |
Degree Level: | Master's Degree |
Degree Discipline: | Linguistics |
URI: | http://cuir.car.chula.ac.th/handle/123456789/81118 |
URI: | http://doi.org/10.58837/CHULA.IS.2021.103 |
metadata.dc.identifier.DOI: | 10.58837/CHULA.IS.2021.103 |
Type: | Independent Study |
Appears in Collections: | Arts - Independent Studies |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
6382008322.pdf | 7.7 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.