Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/2659
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorวิโรจน์ อรุณมานะกุล-
dc.contributor.authorนัฐวุฒิ ไชยเจริญ, 2521--
dc.contributor.otherจุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์-
dc.date.accessioned2006-09-21T02:49:19Z-
dc.date.available2006-09-21T02:49:19Z-
dc.date.issued2544-
dc.identifier.isbn9741705212-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/2659-
dc.descriptionวิทยานิพนธ์ (อ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2544en
dc.description.abstractงานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างโปรแกรมสำหรับตัดคำและกำกับหมวดคำแบบเบ็ดเสร็จด้วยคอมพิวเตอร์สำหรับภาษาไทย โดยใช้แบบจำลองไตรแกรมและชุดหมวดคำภาษาไทยที่ได้คัดสรรมา โดยมองว่าปัญหาการตัดคำและการกำกับหมวดคำเป็นส่วนงานเดียวกันซึ่งสามารถแก้ปัญหาไปพร้อมๆกันได้ ผู้วิจัยได้ทำการศึกษาเกณฑ์เรื่องคำ และนำเสนอชุดหมวดคำ เพื่อใช้สำหรับตัดคำและกำกับหมวดคำด้วยมือให้กับคลังข้อมูลซึ่งรวบรวมจากคลังข้อมูลของหนังสือพิมพ์กรุงเทพธุรกิจ ชุดหมวดคำภาษาไทยที่ใช้ในงานวิจัยนี้แบ่งเป็น 9 หมวดคำหลัก คือ นาม, กริยา, ตัวกำหนด, ตัวบอกปริมาณ, วิเศษณ์, คำหน้าหน่วยสร้างไร้ศูนย์, สันธาน, อนุภาค และเครื่องหมาย ตามเกณฑ์ทางวากยสัมพันธ์: การปรากฏร่วมของคำ และ การกระจายของคำ และแบ่งย่อยได้ทั้งหมด 26 หมวดคำสำหรับใช้เป็นป้ายกำกับหมวดคำในคลังข้อมูลและโปรแกรม ในการทดลอง ให้โปรแกรมเรียนรู้ค่าสถิติจากคลังข้อมูลฝึกสอนที่ได้ทำการตัดคำและกำกับหมวดคำด้วยมือไว้ และทดสอบประสิทธิภาพกับข้อมูลทดสอบที่ไม่ได้มีการตัดคำ ผลการทดลองปรากฏว่า โปรแกรมสามารถกำกับหมวดคำและตัดคำได้ถูกต้อง 89.590% และ 96.087% ตามลำดับ ซึ่งแสดงให้เห็นว่าแบบจำลองไตรแกรมที่ใช้ปริบทหมวดคำข้างเคียงสามารถตัดคำและกำกับหมวดคำได้ประสิทธิภาพสูงในระดับหนึ่ง แต่เมื่อเทียบผลการตัดคำของแบบจำลองไตรแกรมที่ใช้หมวดคำข้างเคียงกับผลการตัดคำของแบบจำลองไตรแกรมที่ใช้รูปคำข้างเคียงแล้วพบว่า แบบจำลองที่ใช้หมวดคำข้างเคียงมีค่าความถูกต้องในการตัดคำต่ำกว่า ซึ่งแสดงให้เห็นว่า หากใช้แบบจำลองไตรแกรมเพื่อทำการตัดคำและกำกับหมวดคำภาษาไทย การแยกกระบวนการตัดคำและกระบวนการกำกับหมวดคำเป็นคนละกระบวนการน่าจะเหมาะสมมากกว่า โดยกระบวนการตัดคำควรเป็นกระบวนการขั้นต้นก่อนนำไปกำกับหมวดคำen
dc.description.abstractalternativeThis study aims at developing an integrated word segmentation and part-of-speech (POS) tagging program for Thai text, using trigram model and the selected POS tag set. The problem of word segmentation and POS tagging is treated as a single procedure in which those two problems are solved simultaneously. We studied word criteria, and proposed a Thai POS set for using as a tool for manual segmentation and POS tagging on a corpus collected from Bangkok Business newspaper. The POS set in this study consists of 9 major categories, namely noun, verb, determiner, quantifier, adverb, exocentric marker, conjunction, particle, and punctuation, based on syntactic criteria: word co-occurrence, and word distribution. Major categories were further sub-categorized, yielding a total of 26 tags. Training on manually segmented and tagged corpus, and testing on unsegmented test text, the result shows 89.590 % and 96.087 % accuracy for tagging and segmentation, respectively. This suggests that the POS trigram model can yield afairly good result for tagging and segmentation in Thai. However, the segmentation accuracy is lower when compared with the result from the model that uses only word form trigram. This suggests that, when using a trigram model, it might be better to treat the word segmentation task and the POS tagging task as separated modules, i.e., the word segmentation task should precede the POS tagging task in Thai.en
dc.format.extent1636343 bytes-
dc.format.mimetypeapplication/pdf-
dc.language.isothen
dc.publisherจุฬาลงกรณ์มหาวิทยาลัยen
dc.relation.urihttp://doi.org/10.14457/CU.the.2001.336-
dc.rightsจุฬาลงกรณ์มหาวิทยาลัยen
dc.subjectการแจกแจงรูปประโยคen
dc.subjectการตัดคำen
dc.subjectภาษาไทย--โปรแกรมคอมพิวเตอร์en
dc.titleการตัดคำและการกำกับหมวดคำภาษาไทยแบบเบ็ดเสร็จด้วยคอมพิวเตอร์en
dc.title.alternativeComputerized integrated word segmentation and part-of-speech tagging of Thaien
dc.typeThesisen
dc.degree.nameอักษรศาสตรมหาบัณฑิตen
dc.degree.levelปริญญาโทen
dc.degree.disciplineภาษาศาสตร์en
dc.degree.grantorจุฬาลงกรณ์มหาวิทยาลัยen
dc.email.advisorWirote.A@Chula.ac.th-
dc.identifier.DOI10.14457/CU.the.2001.336-
Appears in Collections:Arts - Theses

Files in This Item:
File Description SizeFormat 
nuttawut.pdf1.61 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.