Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/81118
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorAttapol Thamrongrattanarit-
dc.contributor.authorJin Cheevaprawatdomrong-
dc.contributor.otherChulalongkorn University. Faculty of Arts-
dc.date.accessioned2022-11-03T03:09:53Z-
dc.date.available2022-11-03T03:09:53Z-
dc.date.issued2021-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/81118-
dc.descriptionIndependent Study (M.A.)--Chulalongkorn University, 2021-
dc.description.abstractLatent Dirichlet Allocation (LDA) discovers hidden themes in documents by using words as input. Past studies show that merging the words into collocation improves topic coherence in English. However, there are still questions about the best merging strategies, especially in the languages without clear word boundaries, such as Thai and Chinese. We compare chi-squared measure, t-statistics, and raw frequency strategies, and show that merging input tokens with appropriate strategies can improve the goodness of fit and topic coherence of the model.-
dc.description.abstractalternativeการจัดสรรดีริชเลแฝงสามารถค้นพบหัวข้อต่างๆ ที่แฝงอยู่ในเอกสารโดยใช้คำเป็นสิ่งที่ป้อนเข้า งานวิจัยที่ผ่านมาแสดงว่าการรวมคำเป็นคำปรากฎร่วมสามารถทำให้หัวข้อที่ได้มีความเชื่อมโยงกันมากขึ้นในภาษาอังกฤษ แต่ยังคงมีคำถามว่าวิธีใดเป็นวิธีที่ดีที่สุดที่จะรวมคำเข้าด้วยกัน โดยเฉพาะอย่างยิ่งในภาษาที่ไม่มีสัญลักษณ์แบ่งคำที่ชัดเจนอย่างภาษาจีนและภาษาไทย ผู้ดำเนินงานวิจัยได้เปรียบเทียบวิธี การทดสอบไคสแควร์ สถิติทดสอบที และความถี่ และแสดงว่าการรวมคำที่ป้อนเข้าด้วยวิธีที่เหมาะสมจะสามารถทำให้ความเหมาะสมกับข้อมูลของแบบจำลอง (goodness of fit) และความเชื่อมโยงกันของหัวข้อของแบบจำลองดีขึ้น-
dc.language.isoen-
dc.publisherChulalongkorn University-
dc.relation.urihttp://doi.org/10.58837/CHULA.IS.2021.103-
dc.rightsChulalongkorn University-
dc.subject.classificationArts and Humanities-
dc.titleCollocation-based retokenization methods for latent dirichlet allocation topic models-
dc.title.alternativeวิธีการตัดหน่วยใหม่โดยอิงการปรากฏร่วมเพื่อใช้ในแบบจำลองการแจงหัวข้อด้วยการแจกแจงดีริชเลแฝง-
dc.typeIndependent Study-
dc.degree.nameMaster of Arts-
dc.degree.levelMaster's Degree-
dc.degree.disciplineLinguistics-
dc.degree.grantorChulalongkorn University-
dc.identifier.DOI10.58837/CHULA.IS.2021.103-
Appears in Collections:Arts - Independent Studies

Files in This Item:
File Description SizeFormat 
6382008322.pdf7.7 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.