Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/43050
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | อติวงศ์ สุชาโต | en_US |
dc.contributor.advisor | โปรดปราน บุณยพุกกณะ | en_US |
dc.contributor.author | นัทธมน โมกข์ณรงค์ | en_US |
dc.contributor.other | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ | en_US |
dc.date.accessioned | 2015-06-24T06:23:40Z | |
dc.date.available | 2015-06-24T06:23:40Z | |
dc.date.issued | 2556 | en_US |
dc.identifier.uri | http://cuir.car.chula.ac.th/handle/123456789/43050 | |
dc.description | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2556 | en_US |
dc.description.abstract | ข้อความภายในเครือข่ายสังคมถูกสร้างโดยผู้ใช้งานหรือผู้เขียนจำนวนมาก นอกจากนั้นแต่ละคนยังมีรูปแบบการเขียนเฉพาะตัวที่ขึ้นอยู่กับความคิดสร้างสรรค์หรือทัศนคติของแต่ละบุคคล ในบางครั้งข้อความของคนไทยที่พบทั่วไปในเครือข่ายสังคมออนไลน์มีการเขียนคำไทยในลักษณะของการถอดอักษรแบบโรมัน ดังนั้นระบบแปลงภาษาเขียนเป็นภาษาพูดไม่สามารถทำการอ่านโทเค็นด้วยอักษรเหล่านั้นได้ถูกต้อง งานวิจัยนี้ได้นำเสนอและประเมินวิธีทางสถิติสำหรับการระบุคำให้อ่านแบบไทยจากข้อความอักษรโรมันที่พบในเครือข่ายสังคม โดยนำเสนอลักษณะสำคัญที่มีการพิจารณาโทเค็นที่ขึ้นกับบริบทรอบข้างและโทเค็นที่ปราศจากบริบท ข้อมูลจริงที่ได้จากเครือข่ายสังคมถูกนำมาใช้ในการสร้างชุดข้อมูลฝึกสอนและข้อมูลทดสอบ ผลการทดลองแสดงว่าผู้เข้าร่วมวิจัยระบุคำให้อ่านแบบไทยจากข้อความอักษรโรมันที่พบในเครือข่ายสังคมโดยไม่พิจารณาบริบทมีความแม่นยำโดยมีค่าเฉลี่ย 91.60% ในขณะที่เมื่อพิจารณาคำที่มีบริบทมีค่าความแม่นยำ 99.41% จากลักษณะสำคัญที่นำเสนอทำให้การจำแนกด้วยต้นไม้ตัดสินใจและแบบจำลองเอ็นแกรมมีความแม่นยำในการจำแนกเท่ากับ 87.94% และ 79.30% ตามลำดับ กรณีถัดมาเมื่อพิจารณาการปรากฎของโทเค็นที่สนใจในพจนานุกรมอังกฤษ วิธีนี้มีค่าความแม่นยำเพิ่มขึ้นเป็น 82.28% โดยผลการรวมกันของ 2 วิธีในการระบุคำให้อ่านแบบไทยจากข้อความอักษรโรมันที่พบในเครือข่ายสังคมมีความแม่นยำเป็น 90.49% | en_US |
dc.description.abstractalternative | Social media contents were created by a large number of users or writers. Additionally, each person has one’s own writing style, which depends on one’s own creative thinking or attitudes. As commonly found in online social networks of Thai users, typed texts sometimes include Thai words that were transliterated with Roman letters. Therefore, text-to-speech systems cannot pronounce these transliterated tokens correctly. In this work, we propose and evaluate statistical methods for detecting Romanized Thai tokens. Both context-dependent and context-free classification features are proposed. Real social network texts are used for constructing the training set and the test set. The result reveals that human subjects can detect Thai Romanized tokens at 91.60% accuracy on average when adjacent contexts are hidden, while the accuracy is at 99.41% with contexts. With the proposed features, a decision tree-based classifier and an N-gram-based classifier yield 87.94% and 79.30% accuracy, respectively. In the latter case, the accuracy increases to 82.28% when the tokens’ existence in English dictionaries is considered. Combining the two methods results in a detection accuracy of 90.49%. | en_US |
dc.language.iso | th | en_US |
dc.publisher | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.relation.uri | http://doi.org/10.14457/CU.the.2013.520 | - |
dc.rights | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.subject | การออกแบบ -- โปรแกรมคอมพิวเตอร์ | |
dc.subject | การรู้จำอักขระ (คอมพิวเตอร์) | |
dc.subject | Design -- Computer programs | |
dc.subject | Character recognition | |
dc.title | การระบุคำให้อ่านแบบไทยจากข้อความอักษรโรมันที่พบในเครือข่ายสังคม | en_US |
dc.title.alternative | AN IDENTIFICATION OF ROMANIZED TOKENS FOUND IN SOCIAL MEDIA TO READ ALOUD IN THAI | en_US |
dc.type | Thesis | en_US |
dc.degree.name | วิศวกรรมศาสตรมหาบัณฑิต | en_US |
dc.degree.level | ปริญญาโท | en_US |
dc.degree.discipline | วิศวกรรมคอมพิวเตอร์ | en_US |
dc.degree.grantor | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.email.advisor | Atiwong.S@chula.ac.th | en_US |
dc.email.advisor | Proadpran.P@Chula.ac.th | |
dc.identifier.DOI | 10.14457/CU.the.2013.520 | - |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
5570491821.pdf | 1.83 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.