Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/42074
Title: ลักษณะสำคัญทางเสียงสำหรับการรู้จำเสียงวรรณยุกต์ไทยด้วยฮิดเดนคอนดิชันนัลแรนดอมฟิลด์
Other Titles: Acoustic features for hidden conditional random fields-based Thai tone recognition
Authors: ณัฐวุฒิ เกิดเกียรติขจร
Advisors: โปรดปราน บุณยพุกกณะ
อติวงศ์ สุชาโต
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: Proadpran.P@Chula.ac.th
Atiwong.S@Chula.ac.th
Subjects: ภาษาไทย -- วรรณยุกต์
การรู้จำอักขระ (คอมพิวเตอร์)
Character recognition
Issue Date: 2555
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: เสียงวรรณยุกต์มีบทบาทสำคัญในการระบุความหมายของคำในภาษาไทย เพื่อที่จะพัฒนาระบบรู้จำเสียงพูดในภาษาไทยให้มีความแม่นยำมากยิ่งขึ้นจึงจำเป็นต้องมีการสร้างและพัฒนาการจำแนกเสียงวรรณยุกต์ภาษาไทยที่มีประสิทธิภาพ ดังนั้นในวิทยานิพนธ์นี้จึงได้ทำการศึกษาและพัฒนาการจำแนกเสียงวรรณยุกต์ภาษาไทย โดยแบ่งการศึกษาเป็น 3 ส่วนได้แก่ การรับรู้เสียงวรรณยุกต์ภาษาไทย, การจำแนกเสียงวรรณยุกต์ภาษาไทย และ การประยุกต์ใช้การจำแนกเสียงวรรณยุกต์ภาษาไทย ในส่วนแรกได้ทำการศึกษาการรับรู้เสียงวรรณยุกต์ภาษาไทย โดยมุ่งเน้นการศึกษาไปที่ผลกระทบของความถี่มูลฐาน, รูปร่างของพลังงาน และ รูปร่างของสเปกตรัมที่มีผลต่อการรับรู้เสียงวรรณยุกต์ จากการทดลองพบว่าความถี่มูลฐานเพียงอย่างเดียวไม่เพียงพอที่จะทำให้การรับรู้เสียงวรรรยุกต์มีความถูกต้องเท่าเสียงต้นแบบ ในขณะที่เมื่อเพิ่มข้อมูลรูปร่างของพลังงาน ส่งผลให้การรับรู้เสียงหนึ่งพยางค์ได้รับความถูกต้องมากขึ้น และเมื่อเพิ่มข้อมูลทางสเปกตรัมโดยเฉพาะช่วงความถี่ฟอร์แมนต์ที่หนึ่งทำให้ความสามารถในการรับรู้เสียงวรรณยุกต์มีความถูกต้องเพิ่มขึ้นอย่างมีนัยสำคัญทางสถิติ เมื่อเทียบกับกรณีที่ไม่มีข้อมูลในช่วงฟอร์แมนต์ที่หนึ่ง ในส่วนถัดมาได้เสนอการทดลองการจำแนกเสียงวรรณยุกต์ภาษาไทยด้วยแบบจำลองฮิดเดนคอนดิชันนัลแรนดอมฟิลด์ ทั้งในคำโดด และเสียงพูดต่อเนื่อง ซึ่งใช้ลักษณะเด่นเป็นความถี่มูลฐาน พบว่าการจำแนกเสียงวรรณยุกต์ภาษาไทยด้วยแบบจำลองฮิดเดนคอนดิชันนัลแรนดอมฟิลด์ให้ประสิทธิภาพสูงกว่าระบบอ้างอิงที่ดีที่สุดที่ใช้โครงข่ายประสาทเทียมเป็นตัวจำแนก โดยได้อัตราการลดลงของความผิดพลาดเป็น 10.58% สำหรับคำโดด และ 12.02% สำหรับเสียงพูดต่อเนื่อง นอกจากนี้ได้ทำการทดลองโดยการเพิ่มลักษณะเด่นอื่น สำหรับคำโดดได้ทำการเพิ่มค่าพลังงาน และสำหรับเสียงพูดต่อเนื่องได้ทำการเพิ่มค่าสเปกตรัมของสัญญาณเสียง พบว่าอัตราการลดลงของความผิดพลาดจะสูงสุดถึง 22.40% สำหรับคำโดด และ 13.90% สำหรับเสียงพูดต่อเนื่องเมื่อเทียบกับการจำแนกเสียงวรรณยุกต์ที่ใช้แต่ความถี่มูลฐานในส่วนสุดท้ายได้ทดลองประยุกต์ใช้การจำแนกเสียงวรรณยุกต์ด้วยแบบจำลองฮิดเดนคอนดิชันนัลแรนดอมฟิลด์ในการรู้จำเสียงพูดการสะกดคำภาษาไทยพบว่า ระบบที่นำเสนอที่มีการประยุกต์ใช้การจำแนกเสียงวรรณยุกต์ให้ประสิทธิภาพดีกว่าระบบอ้างอิง ทำให้อัตราการลดลงของความผิดพลาดลดลงจากระบบอ้างอิงถึง 23.85%
Other Abstract: In Thai, tones play an important role in differentiating the meaning of ambiguous words. In order to develop an accurate automatic Thai speech recognition system, it is necessary to build and develop an efficient Thai tone classification system. This thesis presents a study of Thai tone classification. It can be divided into three parts; 1) a study of Thai tone perception, 2) Thai tone classification and 3) the application of Thai tone classification system to Thai speech recognition system. Thai tone perceptual experiments were conducted in order to investigate the effects of acoustic cues, especially fundamental frequency, energy envelope, as well as spectral shape, to understand their effects to Thai tone perception. The findings suggest that fundamental frequency alone is not adequate to identify tone correctly while energy envelope makes a contribution to tone perception in mono-syllabic. Furthermore, spectral shape, especially in the vicinity of the first formant, contributes significantly to the participants’ ability to correctly identify tones in all syllabic patterns. Moreover, we proposed a Thai tone classification system based on Hidden Conditional Random Fields (HCRF) in isolated word and continuous speech tasks. When acoustic features were limited to fundamental frequency, the results indicated that our HCRF-based system outperformed the baselines-Artificial Neural Network (ANN)-based and Hidden Markov Model (HMM)-based systems. The HCRF-based system provides error rate reduction of 10.58% and 12.02% for isolated word and continuous speech respectively. Furthermore, we explore other acoustic features in the HCRF-based system. For isolated word, we examine the energy of speech signal. For continuous speech, we explore the spectral information of signal. The results showed that incorporating extra acoustic features yielded better performance than fundamental frequency alone. The error rate reduction of 22.40% and 13.90% are achieved for isolated word and continuous speech respectively. Finally, we integrated the proposed HCRF-based Thai tone classification system into Thai speech recognition on Thai isolated spelling domain. We found that our integrated system significantly outperform the baseline, which is a HMM-based system, and was able to achieve an error rate reduction of 23.85%.
Description: วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2555
Degree Name: วิศวกรรมศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิศวกรรมคอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/42074
URI: http://doi.org/10.14457/CU.the.2012.613
metadata.dc.identifier.DOI: 10.14457/CU.the.2012.613
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
natthawut_ke.pdf4.34 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.