Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/37617
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorอติวงศ์ สุชาโต-
dc.contributor.advisorโปรดปราน บุณยพุกกณะ-
dc.contributor.advisorชัย วุฒิวิวัฒน์ชัย-
dc.contributor.authorณัฐชา ตังศิริรัตน์-
dc.contributor.otherจุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์-
dc.date.accessioned2013-12-31T14:11:28Z-
dc.date.available2013-12-31T14:11:28Z-
dc.date.issued2555-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/37617-
dc.descriptionวิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2555en_US
dc.description.abstractประโยคจัดได้ว่าเป็นองค์ประกอบพื้นฐานที่สำคัญมากในงานด้านการประมวลผลข้อความ เช่น การแปลภาษาอัตโนมัติ (Machine translation) การค้นคืนสารสนเทศ (Information retrieval) และการสรุปข้อความ (Text summarization) ประสิทธิภาพของการประมวลผลดังกล่าวขึ้นอยู่กับความถูกต้องของประโยคที่ใช้เป็นสิ่งเข้า (Input) โดยเฉพาะอย่างยิ่งในภาษาไทยซึ่งไม่มีการแสดงการสิ้นสุดประโยคอย่างชัดเจน ดังนั้นวิทยานิพนธ์นี้จึงเสนอ การใช้แคททิกอเรียลแกรมม่า จำนวนคำระหว่างการเว้นวรรคที่พิจารณากับการเว้นวรรคใกล้เคียง และจำนวนคำระหว่างการเว้นวรรคที่กำลังพิจารณากับจุดสิ้นสุดของข้อความ เป็นลักษณะสำคัญในระเบียบวิธีทางสถิติและเสนอการประยุกต์ใช้กฎบางส่วนจากหลักเกณฑ์การใช้เครื่องหมายวรรคตอน และหลักเกณฑ์การเว้นวรรคที่กำหนดโดยราชบัณฑิตยสถาน เพื่อเพิ่มความถูกต้องให้กับผลลัพท์ที่ได้จากระเบียบวิธีเรียนรู้ทางสถิติ เพื่อแก้ปัญหาการแบ่งประโยคภาษาไทย โดยการทดลองได้ใช้ข้อความและการกำกับข้อความจากฐานข้อมูล Thai speech corpus for speech synthesis (TsynC) และได้ผลการทดลองดังนี้ ความถูกต้องของการแบ่งประโยค (sentence-break-recall) เท่ากับ 84.11% ความถูกต้องโดยรวม (space-correct) เท่ากับ 93.54% และความผิดพลาดของการแบ่งประโยค (false-break) เท่ากับ 2.99%en_US
dc.description.abstractalternativeA sentence is regarded as a key fundamental element in many text processing tasks such as Machine translation, Information retrieval, and text summarization. So, performance of many text processing tasks relies on correct sentences used as input especially in Thai which has no explicit sentence boundary. This thesis proposes to use the integration of statistical method using Categorial grammar, number of words between the considering space and the preceding and succeeding space, and number of words between the considering space and the previous sentence-break as features and rule-based method derived from “Rules for punctuation, space, and abbreviation” composed by The royal institute to improve accuracy of Thai sentence-breaking. Rule-based method is applied to statistical method’s results in order to minimize false-break and increase total accuracy. This research uses Thai speech corpus for speech synthesis (TsynC) as training and testing data. The sentence-break-recall, space-correct and false-break scores are 84.11%, 93.54% and 2.99% respectively.en_US
dc.language.isothen_US
dc.publisherจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.relation.urihttp://doi.org/10.14457/CU.the.2012.1170-
dc.rightsจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.subjectภาษาไทย -- ประโยคen_US
dc.subjectภาษาไทย -- แคทิกอเรียลแกรมมาen_US
dc.subjectการประมวลผลภาษาธรรมชาติ (คอมพิวเตอร์)en_US
dc.subjectThai language -- Sentencesen_US
dc.subjectThai language -- Categorial grammaren_US
dc.subjectNatural language processing ‪(Computer science)‬en_US
dc.titleการแบ่งประโยคภาษาไทยโดยแคททิกอเรียลแกรมม่าและหลักเกณฑ์ไวยากรณ์en_US
dc.title.alternativeThai sentence segmentation using categorial grammar and grammar rulesen_US
dc.typeThesisen_US
dc.degree.nameวิศวกรรมศาสตรมหาบัณฑิตen_US
dc.degree.levelปริญญาโทen_US
dc.degree.disciplineวิศวกรรมคอมพิวเตอร์en_US
dc.degree.grantorจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.email.advisorAtiwong.S@Chula.ac.th-
dc.email.advisorProadpran.Pu@Chula.ac.th-
dc.email.advisorไม่มีข้อมูล-
dc.identifier.DOI10.14457/CU.the.2012.1170-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
nathacha_ta.pdf2.75 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.