DSpace Repository

Word sense disambiguation in Thai using decision list collocation

Show simple item record

dc.contributor.advisor Wirote Aroonmanakun
dc.contributor.author Wipharuk Kanokrattananukul
dc.contributor.other Chulalongkorn University. Faculty of Arts
dc.date.accessioned 2009-08-14T11:27:13Z
dc.date.available 2009-08-14T11:27:13Z
dc.date.issued 2001
dc.identifier.isbn 9740305539
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/10105
dc.description Thesis (M.A.)--Chulalongkorn University, 2001 en
dc.description.abstract To develop a prototype of word sense disambiguation program in Thai by using the decision list collocation algorithm. หัว /hua4/ is chosen as a representative of nouns and เก็บ /kep1/ as a representative of verbs. We analyzed the senses of หัว /hua4/ and เก็บ /kep1/ for preparing manually sense-tagged corpus based on the Thai dictionary of "The Royal Institute" and 1,800 samples of หัว /hua4/ and 1800 samples of เก็บ /kep1/ collected from a corpus of Bangkok Business newspaper. Twenty senses of หัว /hua4/ and nine senses of เก็บ /kep1/ were found. To test for the optimal span and the location of sense indicators, we trained the algorithm at twenty spans of collocation and obtained twenty decision lists and tested the algorithm with these decision lists. The algorithm made the decision by choosing the sense with the highest collocational weight. The result suggests that the span +-2 is sufficient for the disambiguation of both words and the sense indicators of both words are mostly on the right side. The optimal span for disambiguating หัว /hua4/ is one-word-to-the-right-and-left with the precision rate of 87%, while เก็บ /kep1/ is two-words-to-the-right, with the precision rate of 80.25%. The high precision rate suggests that the decision list algorithm used in this study is applicable to the task en
dc.description.abstractalternative พัฒนาต้นแบบโปรแกรมแก้ปัญหาความกำกวมของคำหลายความหมายในภาษาไทย โดยใช้รายการตัดสินของคำปรากฏร่วม โดยศึกษาคำว่า หัว เป็นตัวแทนของคำนาม และคำว่า เก็บ เป็นตัวแทนของคำกริยา ผู้วิจัยได้วิเคราะห์ความหมายของ หัว และ เก็บ จากพจนานุกรมฉบับราชบัณฑิตยสถาน และ 1,800 ตัวอย่างของ หัว และ 1,800 ตัวอย่างของ เก็บ ซึ่งรวบรวมมาจากคลังข้อมูลของหนังสือพิมพ์กรุงเทพธุรกิจ จากการวิเคราะห์ได้ความหมายของ หัว 20 ความหมาย และของ เก็บ 9 ความหมาย เพื่อที่จะค้นหาตำแหน่งและระยะทางของคำบ่งชี้ความหมาย ผู้วิจัยได้ใช้โปรแกรมตรวจหาคำปรากฏร่วมของ หัว และ เก็บ จากคลังข้อมูลฝึกสอน ในรูปแบบและขอบเขตต่างๆ จำนวน 20 แบบ ผลที่ได้คือรายการตัดสิน 20 รายการ เพื่อใช้ในการทดสอบแต่ละแบบ จากนั้นได้ทดสอบโปรแกรมโดยใช้รายการตัดสิน 20 รายการนี้ เพื่อหาระยะทางที่ดีที่สุดและตำแหน่งของคำบ่งชี้ความหมาย โปรแกรมตัดสินโดยเลือกความหมายที่เกิดร่วมกับรูปคำที่มีค่าน้ำหนักการเกิดร่วมมากที่สุด ผลการทดลองปรากฏว่า ระยะทาง +-2 เพียงพอในการแก้ปัญหาของทั้งสองคำ และคำที่อยู่ข้างขวาของทั้งสองคำเป็นตัวบ่งชี้ความหมาย ระยะทางที่ดีที่สุดในการแก้ปัญหาความกำกวมของ หัว คือ 1 คำทางขวาและทางซ้าย โดยมีค่าความแม่นยำเท่ากับ 87% ในขณะที่ระยะทางที่ดีที่สุดของ เก็บ คือ 2 คำทางขวา โดยมีค่าความแม่นยำเท่ากับ 80.25% ค่าความแม่นยำที่สูงนี้แสดงให้เห็นว่า โปรแกรมการแก้ปัญหาความกำกวมของคำหลายความหมาย โดยใช้รายการตัดสินของคำปรากฏร่วมนี้ทำงานได้ดีในระดับหนึ่ง en
dc.format.extent 6814195 bytes
dc.format.mimetype application/pdf
dc.language.iso en es
dc.publisher Chulalongkorn University en
dc.rights Chulalongkorn University en
dc.subject Thai language -- Semantics en
dc.subject Ambiguity en
dc.subject Thai language -- Usage en
dc.title Word sense disambiguation in Thai using decision list collocation en
dc.title.alternative การแก้ปัญหาความกำกวมของคำหลายความหมายในภาษาไทย โดยใช้รายการตัดสินของคำปรากฎร่วม en
dc.type Thesis es
dc.degree.name Master of Arts es
dc.degree.level Master's Degree es
dc.degree.discipline Linguistics es
dc.degree.grantor Chulalongkorn University en
dc.email.advisor Wirote.A@Chula.ac.th  


Files in this item

This item appears in the following Collection(s)

Show simple item record