Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/2659
Title: การตัดคำและการกำกับหมวดคำภาษาไทยแบบเบ็ดเสร็จด้วยคอมพิวเตอร์
Other Titles: Computerized integrated word segmentation and part-of-speech tagging of Thai
Authors: นัฐวุฒิ ไชยเจริญ, 2521-
Advisors: วิโรจน์ อรุณมานะกุล
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์
Advisor's Email: Wirote.A@Chula.ac.th
Subjects: การแจกแจงรูปประโยค
การตัดคำ
ภาษาไทย--โปรแกรมคอมพิวเตอร์
Issue Date: 2544
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างโปรแกรมสำหรับตัดคำและกำกับหมวดคำแบบเบ็ดเสร็จด้วยคอมพิวเตอร์สำหรับภาษาไทย โดยใช้แบบจำลองไตรแกรมและชุดหมวดคำภาษาไทยที่ได้คัดสรรมา โดยมองว่าปัญหาการตัดคำและการกำกับหมวดคำเป็นส่วนงานเดียวกันซึ่งสามารถแก้ปัญหาไปพร้อมๆกันได้ ผู้วิจัยได้ทำการศึกษาเกณฑ์เรื่องคำ และนำเสนอชุดหมวดคำ เพื่อใช้สำหรับตัดคำและกำกับหมวดคำด้วยมือให้กับคลังข้อมูลซึ่งรวบรวมจากคลังข้อมูลของหนังสือพิมพ์กรุงเทพธุรกิจ ชุดหมวดคำภาษาไทยที่ใช้ในงานวิจัยนี้แบ่งเป็น 9 หมวดคำหลัก คือ นาม, กริยา, ตัวกำหนด, ตัวบอกปริมาณ, วิเศษณ์, คำหน้าหน่วยสร้างไร้ศูนย์, สันธาน, อนุภาค และเครื่องหมาย ตามเกณฑ์ทางวากยสัมพันธ์: การปรากฏร่วมของคำ และ การกระจายของคำ และแบ่งย่อยได้ทั้งหมด 26 หมวดคำสำหรับใช้เป็นป้ายกำกับหมวดคำในคลังข้อมูลและโปรแกรม ในการทดลอง ให้โปรแกรมเรียนรู้ค่าสถิติจากคลังข้อมูลฝึกสอนที่ได้ทำการตัดคำและกำกับหมวดคำด้วยมือไว้ และทดสอบประสิทธิภาพกับข้อมูลทดสอบที่ไม่ได้มีการตัดคำ ผลการทดลองปรากฏว่า โปรแกรมสามารถกำกับหมวดคำและตัดคำได้ถูกต้อง 89.590% และ 96.087% ตามลำดับ ซึ่งแสดงให้เห็นว่าแบบจำลองไตรแกรมที่ใช้ปริบทหมวดคำข้างเคียงสามารถตัดคำและกำกับหมวดคำได้ประสิทธิภาพสูงในระดับหนึ่ง แต่เมื่อเทียบผลการตัดคำของแบบจำลองไตรแกรมที่ใช้หมวดคำข้างเคียงกับผลการตัดคำของแบบจำลองไตรแกรมที่ใช้รูปคำข้างเคียงแล้วพบว่า แบบจำลองที่ใช้หมวดคำข้างเคียงมีค่าความถูกต้องในการตัดคำต่ำกว่า ซึ่งแสดงให้เห็นว่า หากใช้แบบจำลองไตรแกรมเพื่อทำการตัดคำและกำกับหมวดคำภาษาไทย การแยกกระบวนการตัดคำและกระบวนการกำกับหมวดคำเป็นคนละกระบวนการน่าจะเหมาะสมมากกว่า โดยกระบวนการตัดคำควรเป็นกระบวนการขั้นต้นก่อนนำไปกำกับหมวดคำ
Other Abstract: This study aims at developing an integrated word segmentation and part-of-speech (POS) tagging program for Thai text, using trigram model and the selected POS tag set. The problem of word segmentation and POS tagging is treated as a single procedure in which those two problems are solved simultaneously. We studied word criteria, and proposed a Thai POS set for using as a tool for manual segmentation and POS tagging on a corpus collected from Bangkok Business newspaper. The POS set in this study consists of 9 major categories, namely noun, verb, determiner, quantifier, adverb, exocentric marker, conjunction, particle, and punctuation, based on syntactic criteria: word co-occurrence, and word distribution. Major categories were further sub-categorized, yielding a total of 26 tags. Training on manually segmented and tagged corpus, and testing on unsegmented test text, the result shows 89.590 % and 96.087 % accuracy for tagging and segmentation, respectively. This suggests that the POS trigram model can yield afairly good result for tagging and segmentation in Thai. However, the segmentation accuracy is lower when compared with the result from the model that uses only word form trigram. This suggests that, when using a trigram model, it might be better to treat the word segmentation task and the POS tagging task as separated modules, i.e., the word segmentation task should precede the POS tagging task in Thai.
Description: วิทยานิพนธ์ (อ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2544
Degree Name: อักษรศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: ภาษาศาสตร์
URI: http://cuir.car.chula.ac.th/handle/123456789/2659
URI: http://doi.org/10.14457/CU.the.2001.336
ISBN: 9741705212
metadata.dc.identifier.DOI: 10.14457/CU.the.2001.336
Type: Thesis
Appears in Collections:Arts - Theses

Files in This Item:
File Description SizeFormat 
nuttawut.pdf1.61 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.