Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/2659
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | วิโรจน์ อรุณมานะกุล | - |
dc.contributor.author | นัฐวุฒิ ไชยเจริญ, 2521- | - |
dc.contributor.other | จุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์ | - |
dc.date.accessioned | 2006-09-21T02:49:19Z | - |
dc.date.available | 2006-09-21T02:49:19Z | - |
dc.date.issued | 2544 | - |
dc.identifier.isbn | 9741705212 | - |
dc.identifier.uri | http://cuir.car.chula.ac.th/handle/123456789/2659 | - |
dc.description | วิทยานิพนธ์ (อ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2544 | en |
dc.description.abstract | งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างโปรแกรมสำหรับตัดคำและกำกับหมวดคำแบบเบ็ดเสร็จด้วยคอมพิวเตอร์สำหรับภาษาไทย โดยใช้แบบจำลองไตรแกรมและชุดหมวดคำภาษาไทยที่ได้คัดสรรมา โดยมองว่าปัญหาการตัดคำและการกำกับหมวดคำเป็นส่วนงานเดียวกันซึ่งสามารถแก้ปัญหาไปพร้อมๆกันได้ ผู้วิจัยได้ทำการศึกษาเกณฑ์เรื่องคำ และนำเสนอชุดหมวดคำ เพื่อใช้สำหรับตัดคำและกำกับหมวดคำด้วยมือให้กับคลังข้อมูลซึ่งรวบรวมจากคลังข้อมูลของหนังสือพิมพ์กรุงเทพธุรกิจ ชุดหมวดคำภาษาไทยที่ใช้ในงานวิจัยนี้แบ่งเป็น 9 หมวดคำหลัก คือ นาม, กริยา, ตัวกำหนด, ตัวบอกปริมาณ, วิเศษณ์, คำหน้าหน่วยสร้างไร้ศูนย์, สันธาน, อนุภาค และเครื่องหมาย ตามเกณฑ์ทางวากยสัมพันธ์: การปรากฏร่วมของคำ และ การกระจายของคำ และแบ่งย่อยได้ทั้งหมด 26 หมวดคำสำหรับใช้เป็นป้ายกำกับหมวดคำในคลังข้อมูลและโปรแกรม ในการทดลอง ให้โปรแกรมเรียนรู้ค่าสถิติจากคลังข้อมูลฝึกสอนที่ได้ทำการตัดคำและกำกับหมวดคำด้วยมือไว้ และทดสอบประสิทธิภาพกับข้อมูลทดสอบที่ไม่ได้มีการตัดคำ ผลการทดลองปรากฏว่า โปรแกรมสามารถกำกับหมวดคำและตัดคำได้ถูกต้อง 89.590% และ 96.087% ตามลำดับ ซึ่งแสดงให้เห็นว่าแบบจำลองไตรแกรมที่ใช้ปริบทหมวดคำข้างเคียงสามารถตัดคำและกำกับหมวดคำได้ประสิทธิภาพสูงในระดับหนึ่ง แต่เมื่อเทียบผลการตัดคำของแบบจำลองไตรแกรมที่ใช้หมวดคำข้างเคียงกับผลการตัดคำของแบบจำลองไตรแกรมที่ใช้รูปคำข้างเคียงแล้วพบว่า แบบจำลองที่ใช้หมวดคำข้างเคียงมีค่าความถูกต้องในการตัดคำต่ำกว่า ซึ่งแสดงให้เห็นว่า หากใช้แบบจำลองไตรแกรมเพื่อทำการตัดคำและกำกับหมวดคำภาษาไทย การแยกกระบวนการตัดคำและกระบวนการกำกับหมวดคำเป็นคนละกระบวนการน่าจะเหมาะสมมากกว่า โดยกระบวนการตัดคำควรเป็นกระบวนการขั้นต้นก่อนนำไปกำกับหมวดคำ | en |
dc.description.abstractalternative | This study aims at developing an integrated word segmentation and part-of-speech (POS) tagging program for Thai text, using trigram model and the selected POS tag set. The problem of word segmentation and POS tagging is treated as a single procedure in which those two problems are solved simultaneously. We studied word criteria, and proposed a Thai POS set for using as a tool for manual segmentation and POS tagging on a corpus collected from Bangkok Business newspaper. The POS set in this study consists of 9 major categories, namely noun, verb, determiner, quantifier, adverb, exocentric marker, conjunction, particle, and punctuation, based on syntactic criteria: word co-occurrence, and word distribution. Major categories were further sub-categorized, yielding a total of 26 tags. Training on manually segmented and tagged corpus, and testing on unsegmented test text, the result shows 89.590 % and 96.087 % accuracy for tagging and segmentation, respectively. This suggests that the POS trigram model can yield afairly good result for tagging and segmentation in Thai. However, the segmentation accuracy is lower when compared with the result from the model that uses only word form trigram. This suggests that, when using a trigram model, it might be better to treat the word segmentation task and the POS tagging task as separated modules, i.e., the word segmentation task should precede the POS tagging task in Thai. | en |
dc.format.extent | 1636343 bytes | - |
dc.format.mimetype | application/pdf | - |
dc.language.iso | th | en |
dc.publisher | จุฬาลงกรณ์มหาวิทยาลัย | en |
dc.relation.uri | http://doi.org/10.14457/CU.the.2001.336 | - |
dc.rights | จุฬาลงกรณ์มหาวิทยาลัย | en |
dc.subject | การแจกแจงรูปประโยค | en |
dc.subject | การตัดคำ | en |
dc.subject | ภาษาไทย--โปรแกรมคอมพิวเตอร์ | en |
dc.title | การตัดคำและการกำกับหมวดคำภาษาไทยแบบเบ็ดเสร็จด้วยคอมพิวเตอร์ | en |
dc.title.alternative | Computerized integrated word segmentation and part-of-speech tagging of Thai | en |
dc.type | Thesis | en |
dc.degree.name | อักษรศาสตรมหาบัณฑิต | en |
dc.degree.level | ปริญญาโท | en |
dc.degree.discipline | ภาษาศาสตร์ | en |
dc.degree.grantor | จุฬาลงกรณ์มหาวิทยาลัย | en |
dc.email.advisor | Wirote.A@Chula.ac.th | - |
dc.identifier.DOI | 10.14457/CU.the.2001.336 | - |
Appears in Collections: | Arts - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
nuttawut.pdf | 1.61 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.