Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/81118
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | Attapol Thamrongrattanarit | - |
dc.contributor.author | Jin Cheevaprawatdomrong | - |
dc.contributor.other | Chulalongkorn University. Faculty of Arts | - |
dc.date.accessioned | 2022-11-03T03:09:53Z | - |
dc.date.available | 2022-11-03T03:09:53Z | - |
dc.date.issued | 2021 | - |
dc.identifier.uri | http://cuir.car.chula.ac.th/handle/123456789/81118 | - |
dc.description | Independent Study (M.A.)--Chulalongkorn University, 2021 | - |
dc.description.abstract | Latent Dirichlet Allocation (LDA) discovers hidden themes in documents by using words as input. Past studies show that merging the words into collocation improves topic coherence in English. However, there are still questions about the best merging strategies, especially in the languages without clear word boundaries, such as Thai and Chinese. We compare chi-squared measure, t-statistics, and raw frequency strategies, and show that merging input tokens with appropriate strategies can improve the goodness of fit and topic coherence of the model. | - |
dc.description.abstractalternative | การจัดสรรดีริชเลแฝงสามารถค้นพบหัวข้อต่างๆ ที่แฝงอยู่ในเอกสารโดยใช้คำเป็นสิ่งที่ป้อนเข้า งานวิจัยที่ผ่านมาแสดงว่าการรวมคำเป็นคำปรากฎร่วมสามารถทำให้หัวข้อที่ได้มีความเชื่อมโยงกันมากขึ้นในภาษาอังกฤษ แต่ยังคงมีคำถามว่าวิธีใดเป็นวิธีที่ดีที่สุดที่จะรวมคำเข้าด้วยกัน โดยเฉพาะอย่างยิ่งในภาษาที่ไม่มีสัญลักษณ์แบ่งคำที่ชัดเจนอย่างภาษาจีนและภาษาไทย ผู้ดำเนินงานวิจัยได้เปรียบเทียบวิธี การทดสอบไคสแควร์ สถิติทดสอบที และความถี่ และแสดงว่าการรวมคำที่ป้อนเข้าด้วยวิธีที่เหมาะสมจะสามารถทำให้ความเหมาะสมกับข้อมูลของแบบจำลอง (goodness of fit) และความเชื่อมโยงกันของหัวข้อของแบบจำลองดีขึ้น | - |
dc.language.iso | en | - |
dc.publisher | Chulalongkorn University | - |
dc.relation.uri | http://doi.org/10.58837/CHULA.IS.2021.103 | - |
dc.rights | Chulalongkorn University | - |
dc.subject.classification | Arts and Humanities | - |
dc.title | Collocation-based retokenization methods for latent dirichlet allocation topic models | - |
dc.title.alternative | วิธีการตัดหน่วยใหม่โดยอิงการปรากฏร่วมเพื่อใช้ในแบบจำลองการแจงหัวข้อด้วยการแจกแจงดีริชเลแฝง | - |
dc.type | Independent Study | - |
dc.degree.name | Master of Arts | - |
dc.degree.level | Master's Degree | - |
dc.degree.discipline | Linguistics | - |
dc.degree.grantor | Chulalongkorn University | - |
dc.identifier.DOI | 10.58837/CHULA.IS.2021.103 | - |
Appears in Collections: | Arts - Independent Studies |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
6382008322.pdf | 7.7 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.