Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/18715
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorอติวงศ์ สุชาโต-
dc.contributor.advisorโปรดปราน บุณยพุกกณะ-
dc.contributor.authorเกศราภรณ์ ซื่อสัตย์พาณิชย์-
dc.contributor.otherจุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์-
dc.date.accessioned2012-03-26T10:40:12Z-
dc.date.available2012-03-26T10:40:12Z-
dc.date.issued2552-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/18715-
dc.descriptionวิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2552en
dc.description.abstractงานวิจัยนี้นำเสนอการแบ่งคำภาษาไทยโดยใช้คอนดิชันนัลแรนดอมฟิลด์สด้วยการใช้อักขระและกลุ่มอักขระเป็นคุณลักษณะ สำหรับกลุ่มอักขระนั้นถูกจัดกลุ่มตามหน้าที่การใช้งานของอักขระ เช่น ตำแหน่งการวางอักขระในการเขียนเป็นต้น เทมเพลตคุณลักษณะในคอนดิชันนัลแรนดอมฟิลด์สนั้นใช้อักขระและกลุ่มหน้าที่อักขระมาพิจารณาหรือใช้ใน N-gram เพื่อระบุขอบเขตของคำ ได้แบ่งการทดลองเป็น 2 เทมเพลตคุณลักษณะ คือ 1. ใช้อักขระเป็นคุณลักษณะเพียงอย่างเดียว 2. ใช้อักขระและกลุ่มหน้าที่อักขระเป็นคุณลักษณะ และทำการเปรียบเทียบความถูกต้องกับการแบ่งคำด้วยแบบจำลองมาร์คอฟไทรแกรมระดับคำ โดยผลการทดลองจากงานวิจัยนี้ได้ค่า F-Measure ดีที่สุดคือ95.53% ซึ่งให้ผลดีกว่าการใช้แบบจำลองมาร์คอฟไทรแกรมที่ได้ค่า F-Measure 90.98% จากการวิเคราะห์ผลการแบ่งคำทำให้เห็นว่าการใช้หน้าที่อักขระเข้าเป็นคุณลักษณะเพิ่มจากการใช้อักขระเพียงอย่างเดียวนั้นทำให้ผลการแบ่งคำดีขึ้น ถึงแม้ว่าจะทำให้จำนวนคุณลักษณะในเทมเพลตเพิ่มขึ้นแต่ก็ยังทำให้ประสิทธิภาพการแบ่งคำดีอยู่ และการใช้อักขระช่วยให้ผลการแบ่งคำมีความเสถียรคงทนในการแบ่งคำที่ไม่เคยเห็นมาก่อนในคลังข้อความฝึกฝนมากกว่าเมื่อเทียบกับการใช้แบบจำลองมาร์คอฟไทรแกรมระดับคำen
dc.description.abstractalternativeA Thai word segmentation approach using Conditional Random Fields (CRFs) are utilized for classifying each character associated with the text string to be segmented into classes of characters categorized based on their positions in the underlying words. Characters used in the Thai writing system are attached with character functions proposed in this work. N-grams of these character functions are considered together with character N-grams within the feature templates of the CRF models in order for the models to locate characters likely to indicate word boundaries. The proposed methods yields the best F-measure score of 95.53% which is better than ones obtained based on word trigrams with score of 90.98%. We can observe from the result that word segmentation using CRFs yielding better performances than the one using word trigrams on every genre. Comparing the two types of feature templates, the one that contain character function features perform slightly better than the templates relying only on the character sequences. Although this observation is far from surprising considering the greater number of features in the feature templates relying on the character and character function sequences, the fact that the inclusion of character functions helps the word segmentation performance is still encouraging. It is also shown that character-level constraints make the result more robust to segmenting unseen wordsen
dc.format.extent2140386 bytes-
dc.format.mimetypeapplication/pdf-
dc.language.isothes
dc.publisherจุฬาลงกรณ์มหาวิทยาลัยen
dc.relation.urihttp://doi.org/10.14457/CU.the.2009.316-
dc.rightsจุฬาลงกรณ์มหาวิทยาลัยen
dc.subjectการแจกแจงรูปประโยคen
dc.subjectชุดอักขระ (การประมวลผลข้อมูล)en
dc.subjectParsing (Computer grammar)en
dc.subjectCharacter sets (Data processing)en
dc.titleการเพิ่มความถูกต้องของการแบ่งคำภาษาไทยโดยใช้แบบจำลองความน่าจะเป็นของหน้าที่อักขระen
dc.title.alternativeIncreasing accuracy of Thai word segmentation using character function probabilistic modelsen
dc.typeThesises
dc.degree.nameวิทยาศาสตรมหาบัณฑิตes
dc.degree.levelปริญญาโทes
dc.degree.disciplineวิทยาศาสตร์คอมพิวเตอร์es
dc.degree.grantorจุฬาลงกรณ์มหาวิทยาลัยen
dc.email.advisorAtiwong.S@Chula.ac.th-
dc.email.advisorProadpran.P@Chula.ac.th-
dc.identifier.DOI10.14457/CU.the.2009.316-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
kessaraporn_su.pdf2.09 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.