Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/44241
Title: | การตรวจจับการเล่นคำด้วยวิธีซ้ำตัวอักษรในข้อความสื่อสังคมออนไลน์และแปลงให้เป็นบรรทัดฐาน |
Other Titles: | Detection and normalization of wordplay generated by reproduction of letters in online social media texts |
Authors: | ปวันรัตน์ หิรัญกาญจน์ |
Advisors: | อติวงศ์ สุชาโต โปรดปราน บุณยพุกกณะ |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Advisor's Email: | Atiwong.S@Chula.ac.th Proadpran.P@Chula.ac.th |
Subjects: | เครือข่ายสังคมออนไลน์ การเล่นคำ ซอฟต์แวร์แปลงข้อความเป็นเสียง ภาษาศาสตร์คอมพิวเตอร์ Online social networks Plays on words Text-to-speech software Computational linguistics |
Issue Date: | 2555 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | การเล่นคำด้วยวิธีซ้ำตัวอักษรจากคำเดิมเป็นวิธีการเล่นคำที่พบมากในเว็บไซต์เครือข่ายทางสังคม ซึ่งการเล่นคำโดยส่วนใหญ่จะสร้างความกำกวมให้กับระบบประมวลผลทางภาษามนุษย์ เช่น ระบบสังเคราะห์เสียง งานวิจัยนี้แสดงสถิติการเกิดของการเล่นคำด้วยวิธีซ้ำตัวอักษรจากข้อความในเว็บไซต์เครือข่ายทางสังคมจำนวน 102,586 ชิ้นข้อความ โดยเสนอลักษณะเด่นที่ใช้ในการจำแนกประเภท และกรอบงานสำหรับการจำแนกประเภทเพื่อตรวจจับโทเค็นที่เป็นการเล่นคำด้วยวิธีซ้ำตัวอักษรจากข้อความภาษาไทยในเว็บไซต์เครือข่ายทางสังคม ซึ่งถูกแบ่งเป็นโทเค็นย่อยในระดับคำด้วยเครื่องมือการตัดคำภาษาไทยที่เรียนรู้จากแบบจำลองคอนดิชันแนลแรนดอมฟิลด์ จากนั้นนำเสนอระบบในการแปลงข้อความให้เป็นบรรทัดฐานโดยคำนึงถึงการแปลงเป็นคำอ่าน โดยเสนอวิธีการที่ใช้ในการจัดการโทเค็นที่แตกต่างกัน กรอบงานสำหรับการจำแนกประเภทวิธีการจัดการแปลงให้เป็นบรรทัดฐานที่เหมาะสมกับลักษณะการซ้ำตัวอักษรของโทเค็น ซึ่งจากการวัดผลด้วยชิ้นข้อความจำนวน 48,949 ชิ้นข้อความ แล้วพบว่าระบบตรวจจับการเล่นคำมีความแม่นยำถึง 98.45% ซึ่งมีประสิทธิภาพสูงขึ้นจากการใช้กฎและวิธีเส้นแบ่งฐาน และระบบแปลงให้เป็นบรรทัดฐานสามารถแปลงข้อความที่ตรวจจับได้ได้ถูกต้อง 99.19 % เมื่อตรวจสอบโดยผู้เชี่ยวชาญ |
Other Abstract: | Wordplay generated by letters of its original word being repeated is commonly found in social network texts. Most of the time, wordplay items of this type are ambiguous to machines in language processing tasks such as Text-to-Speech. This research shows some statistics on the number of letters found in 102,586 real social network text items and proposes a set of classification features together with a few classification frameworks to detect repeated-letter wordplay tokens from Thai social network texts, which were tokenized by CRF-based Thai word segmentation. Then proposed an original word pronunciation based normalization system by handling method classification framework. Evaluation on 48,949 text items shows that the proposed method achieves the detection accuracy of 98.45% which is an improvement over simple rule-based and some previously proposed methods. In addition normalized detected wordplay tokens achieve 99.19 % accuracy evaluated by expert checking. |
Description: | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2555 |
Degree Name: | วิศวกรรมศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิศวกรรมคอมพิวเตอร์ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/44241 |
URI: | http://doi.org/10.14457/CU.the.2012.482 |
metadata.dc.identifier.DOI: | 10.14457/CU.the.2012.482 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Pawanrat_hi.pdf | 2.65 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.