Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/44241
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorอติวงศ์ สุชาโต-
dc.contributor.advisorโปรดปราน บุณยพุกกณะ-
dc.contributor.authorปวันรัตน์ หิรัญกาญจน์-
dc.contributor.otherจุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์-
dc.date.accessioned2015-08-10T09:35:23Z-
dc.date.available2015-08-10T09:35:23Z-
dc.date.issued2555-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/44241-
dc.descriptionวิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2555en_US
dc.description.abstractการเล่นคำด้วยวิธีซ้ำตัวอักษรจากคำเดิมเป็นวิธีการเล่นคำที่พบมากในเว็บไซต์เครือข่ายทางสังคม ซึ่งการเล่นคำโดยส่วนใหญ่จะสร้างความกำกวมให้กับระบบประมวลผลทางภาษามนุษย์ เช่น ระบบสังเคราะห์เสียง งานวิจัยนี้แสดงสถิติการเกิดของการเล่นคำด้วยวิธีซ้ำตัวอักษรจากข้อความในเว็บไซต์เครือข่ายทางสังคมจำนวน 102,586 ชิ้นข้อความ โดยเสนอลักษณะเด่นที่ใช้ในการจำแนกประเภท และกรอบงานสำหรับการจำแนกประเภทเพื่อตรวจจับโทเค็นที่เป็นการเล่นคำด้วยวิธีซ้ำตัวอักษรจากข้อความภาษาไทยในเว็บไซต์เครือข่ายทางสังคม ซึ่งถูกแบ่งเป็นโทเค็นย่อยในระดับคำด้วยเครื่องมือการตัดคำภาษาไทยที่เรียนรู้จากแบบจำลองคอนดิชันแนลแรนดอมฟิลด์ จากนั้นนำเสนอระบบในการแปลงข้อความให้เป็นบรรทัดฐานโดยคำนึงถึงการแปลงเป็นคำอ่าน โดยเสนอวิธีการที่ใช้ในการจัดการโทเค็นที่แตกต่างกัน กรอบงานสำหรับการจำแนกประเภทวิธีการจัดการแปลงให้เป็นบรรทัดฐานที่เหมาะสมกับลักษณะการซ้ำตัวอักษรของโทเค็น ซึ่งจากการวัดผลด้วยชิ้นข้อความจำนวน 48,949 ชิ้นข้อความ แล้วพบว่าระบบตรวจจับการเล่นคำมีความแม่นยำถึง 98.45% ซึ่งมีประสิทธิภาพสูงขึ้นจากการใช้กฎและวิธีเส้นแบ่งฐาน และระบบแปลงให้เป็นบรรทัดฐานสามารถแปลงข้อความที่ตรวจจับได้ได้ถูกต้อง 99.19 % เมื่อตรวจสอบโดยผู้เชี่ยวชาญen_US
dc.description.abstractalternativeWordplay generated by letters of its original word being repeated is commonly found in social network texts. Most of the time, wordplay items of this type are ambiguous to machines in language processing tasks such as Text-to-Speech. This research shows some statistics on the number of letters found in 102,586 real social network text items and proposes a set of classification features together with a few classification frameworks to detect repeated-letter wordplay tokens from Thai social network texts, which were tokenized by CRF-based Thai word segmentation. Then proposed an original word pronunciation based normalization system by handling method classification framework. Evaluation on 48,949 text items shows that the proposed method achieves the detection accuracy of 98.45% which is an improvement over simple rule-based and some previously proposed methods. In addition normalized detected wordplay tokens achieve 99.19 % accuracy evaluated by expert checking.en_US
dc.language.isothen_US
dc.publisherจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.relation.urihttp://doi.org/10.14457/CU.the.2012.482-
dc.rightsจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.subjectเครือข่ายสังคมออนไลน์en_US
dc.subjectการเล่นคำen_US
dc.subjectซอฟต์แวร์แปลงข้อความเป็นเสียงen_US
dc.subjectภาษาศาสตร์คอมพิวเตอร์en_US
dc.subjectOnline social networksen_US
dc.subjectPlays on wordsen_US
dc.subjectText-to-speech softwareen_US
dc.subjectComputational linguisticsen_US
dc.titleการตรวจจับการเล่นคำด้วยวิธีซ้ำตัวอักษรในข้อความสื่อสังคมออนไลน์และแปลงให้เป็นบรรทัดฐานen_US
dc.title.alternativeDetection and normalization of wordplay generated by reproduction of letters in online social media textsen_US
dc.typeThesisen_US
dc.degree.nameวิศวกรรมศาสตรมหาบัณฑิตen_US
dc.degree.levelปริญญาโทen_US
dc.degree.disciplineวิศวกรรมคอมพิวเตอร์en_US
dc.degree.grantorจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.email.advisorAtiwong.S@Chula.ac.th-
dc.email.advisorProadpran.P@Chula.ac.th-
dc.identifier.DOI10.14457/CU.the.2012.482-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Pawanrat_hi.pdf2.65 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.