Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/42818
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorวิโรจน์ อรุณมานะกุลen_US
dc.contributor.authorนลินี อินต๊ะซาวen_US
dc.contributor.otherจุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์en_US
dc.date.accessioned2015-06-24T06:21:39Z-
dc.date.available2015-06-24T06:21:39Z-
dc.date.issued2556en_US
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/42818-
dc.descriptionสารนิพนธ์ (ร.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2563en_US
dc.description.abstractวัตถุประสงค์ของวิทยานิพนธ์นี้ คือ เพื่อหาลักษณ์ทางภาษาที่จะนำไปใช้ในการแยกอนุพากย์ภาษาไทยด้วยแบบจำลองซัพพอร์พเวกเตอร์แมชชีน และเปรียบเทียบลักษณ์ทางภาษาที่ใช้ ว่าส่งผลต่อประสิทธิภาพของระบบการแยกอนุพากย์อย่างไรบ้าง คลังข้อมูลที่ใช้ในการศึกษานี้เป็นภาษาเขียนทางวิชาการ มีขนาด 76,460 คำ ประกอบไปด้วย 8,102 อนุพากย์ แบบจำลองซัพพอร์ตเวกเตอร์แมชชีนที่ใช้ในการแยกอนุพากย์ในงานนี้ คือฟังก์ชั่น SMO ของโปรแกรมวีก้า (Weka) และฟังก์ชั่นเคอร์เนลที่ใช้คือโพลีโนเมียล ระบบทำการแยกอนุพากย์โดยรับข้อมูลเข้าเป็นคำเพื่อให้แบบจำลองตัดสินใจว่าคำนั้นเป็นคำขอบเขตเริ่มต้นอนุพากย์หรือไม่ การตัดสินใจของแบบจำลองอาศัยลักษณ์ทางภาษา ได้แก่ ลักษณ์หมวดคำปัจจุบัน หมวดคำก่อนหน้า หมวดคำตามหลัง รายการคำเชื่อมอนุพากย์ ความน่าจะเป็นของช่องว่างที่จะเป็นตัวแบ่งอนุพากย์ และเครื่องหมายวรรคตอน การเปรียบเทียบประสิทธิภาพของแต่ละลักษณ์ทำโดยการกำหนดชุดของลักษณ์รูปแบบต่าง ๆ แล้วนำไปทดสอบ รูปแบบของลักษณ์ที่ส่งผลต่อประสิทธิภาพของระบบมากที่สุด คือการใช้ทุกลักษณ์ร่วมกันทั้งหมด สามารถวัดค่าความถูกต้อง (F-measure) ได้ 81.17 เปอร์เซ็นต์ นอกจากนี้ เมื่อปรับค่าพารามิเตอร์ของเคอร์เนลโพลีโนเมียลให้สูงขึ้น พบว่าสามารถช่วยเพิ่มประสิทธิภาพของระบบได้ กล่าวคือ วัดค่าความถูกได้ 84.74 เปอร์เซ็นต์ เมื่อปรับค่าพารามิเตอร์ไว้ที่ D=4 แต่ก็ทำให้ค่าความแม่นยำลดลง 6 เปอร์เซ็นต์en_US
dc.description.abstractalternativeThe purposes of this study are to find out linguistic features to be used in Thai clause segmentation using support vector machine (SVM) model as well as to compare efficiency of those features on clause segmentation system. The corpus used in the study is a 76,460 word collection of Thai academic written language, consisting of 8,102 clauses. SMO, which is one of the functions in Weka, is used for training SVM. The kernel function used with SVM is polynomial kernel. The clause segmentation system uses words as inputs and decides whether a particular word is the beginning of the clause. The system's decision relies on linguistic-based features including the present word's part-of-speech, the previous word's part-of-speech, the following word's part-of-speech, lists of discourse markers, possibility of white space to be a clause separator, and punctuations. The performances of linguistic features are compared by preparing the set of feature patterns and testing those patterns. The feature pattern that performs best is the mix of all linguistic features which claims the F-measure of 81.17 percent. In addition, when changing the value of the kernel parameter to higher value, it is found that the performance of the system increases. That is, when adjusting the exponent D to the value of 4, the system claims the F-measure of 84.74 percent, but the precision has decreased by 6 percent.en_US
dc.language.isothen_US
dc.publisherจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.relation.urihttp://doi.org/10.14457/CU.the.2013.292-
dc.rightsจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.subjectซัพพอร์ตเวกเตอร์แมชชีน-
dc.subjectภาษาไทย -- ประโยค-
dc.subjectSupport vector machines-
dc.subjectThai language -- Sentences-
dc.titleการแยกอนุพากย์ภาษาไทยด้วยการใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีนen_US
dc.title.alternativeThai Clause Segmentation Using a Support Vector Machine Modelen_US
dc.typeThesisen_US
dc.degree.nameอักษรศาสตรมหาบัณฑิตen_US
dc.degree.levelปริญญาโทen_US
dc.degree.disciplineภาษาศาสตร์en_US
dc.degree.grantorจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.email.advisorawirote@chula.ac.then_US
dc.identifier.DOI10.14457/CU.the.2013.292-
Appears in Collections:Arts - Theses

Files in This Item:
File Description SizeFormat 
5380139422.pdf2.84 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.