ระบบสังเคราะห์เสียงร้องเพลงภาษาไทยโดยใช้แบบจำลองฮิดเดนมาร์คอฟ

ลัทธพล จีระประดิษฐ

Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/61555

Title:	ระบบสังเคราะห์เสียงร้องเพลงภาษาไทยโดยใช้แบบจำลองฮิดเดนมาร์คอฟ
Other Titles:	HMM-based Thai singing voice synthesis system
Authors:	ลัทธพล จีระประดิษฐ
Advisors:	อติวงศ์ สุชาโต
Other author:	จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Subjects:	การร้องเพลง การสังเคราะห์เสียง Singing Speech systhesis
Issue Date:	2561
Publisher:	จุฬาลงกรณ์มหาวิทยาลัย
Abstract:	การร้องเพลงในแต่ละภาษานั้นมีเอกลักษณ์เฉพาะตัวบางอย่างซึ่งส่งผลให้การพัฒนาความเป็นธรรมชาติของเสียงร้องเพลงสังเคราะห์ในแต่ละภาษานั้นมีความท้าทายแตกต่างกัน เสียงวรรณยุกต์เป็นส่วนที่มีผลมากกับการสื่อสารในภาษาที่มีเสียงวรรณยุกต์ แต่ระบบสังเคราะห์เสียงร้องเพลงในปัจจุบันไม่ได้คำนึงถึงเสียงวรรณยุกต์ นอกจากนี้เมลิสมาเป็นอีกสถานการณ์หนึ่งที่พบได้บ่อยครั้งในการร้องเพลงป็อปไทยซึ่งต้องมีการจัดการเพื่อจำลองการร้องเมลิสมา เป้าหมายของวิทยานิพนธ์นี้จึงมุ่งเน้นที่การปรับระบบสังเคราะห์เสียงร้องเพลงให้รองรับการจำลองเสียงในสถานการณ์เมลิสมาและผลกระทบของเสียงวรรณยุกต์ งานวิทยานิพนธ์นี้เสนอ 1) ปัจจัยบริบทที่ใช้ในระบบสังเคราะห์เสียงร้องเพลงสำหรับภาษาที่วรรณยุกต์มีผลต่อเสียงร้องเพลงและคำนึงถึงเมลิสมา 2) วิธีการทำสำเนารูปเขียน จากการประเมินผลพบว่า วิธีการทำสำเนารูปเขียนที่เสนอทั้งสองแบบนั้นส่งผลให้ระบบสังเคราะห์เสียงร้องเพลงรองรับเมลิสมา โดยวิธีการทำสำเนารูปเขียนที่คำนึงถึงสระเสียงสั้น-ยาวและตัวสะกดนั้นมีรูปคลื่นของเสียงร้องเพลงสังเคราะห์ใกล้เคียงกับรูปคลื่นของเสียงร้องเพลงจริงมากกว่า รวมถึงมีความเป็นธรรมชาติมากกว่าโดยใช้มาตรวัดเอ็มโอเอส อีกทั้งเมื่อมีปัจจัยบริบทที่เกี่ยวข้องกับเสียงวรรณยุกต์ เค้ารูปของความถี่มูลฐานที่สังเคราะห์ได้นั้นมีความใกล้เคียงเสียงร้องเพลงจริงมากกว่าในระบบที่ไม่มีปัจจัยบริบทที่เกี่ยวข้องกับเสียงวรรณยุกต์ และมีความเป็นธรรมชาติมากขึ้นโดยใช้มาตรวัดเอ็มโอเอส นอกจากนี้เพื่อเพิ่มความเป็นธรรมชาติให้เสียงร้องเพลงสังเคราะห์จึงมีการทดลองเกี่ยวกับจำนวนสถานะของแบบจำลองเสียงพบว่า เมื่อจำนวนสถานะเพิ่มขึ้น ความเป็นธรรมชาติของเสียงร้องเพลงสังเคราะห์ก็มากขึ้น แต่เมื่อถึงจุดหนึ่งเสียงร้องเพลงสังเคราะห์ที่ได้จะมีความเป็นธรรมชาติลดลง
Other Abstract:	Singing synthesis in each language has its unique characteristics and challenges aiming to improve its naturalness. The effort regarding naturalness becomes more complicated for tonal languages. One of the reasons is due to the fact that the same word uttered in different tone yields different meaning. Nonetheless, no known research has attempted to include tone consideration into their singing synthesis models. Another challenge the tonal language singing synthesis faces is melisma for the same reason. Therefore, this research offers a tonal-melisma-compatible singing voice synthesis system. To do so, we propose 1) a contextual factors design which includes tone and melisma contexts, and 2) phoneme duplication methods. The results showed that the proposed phoneme duplication methods made the system compatible with melisma, where short vowels and final consonants constructed a favorable waveform closer to real singing voice and have a higher naturalness in MOS evaluation. Furthermore, a system with a tone context outperformed the baseline due to similarity of the generated F0 contour. Finally, in order to improve naturalness in the synthesized singing voice, an experiment with HMM state numbers was conducted. The outcome demonstrated that the naturalness increased as the state numbers grew to a certain point.
Description:	วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2561
Degree Name:	วิศวกรรมศาสตรมหาบัณฑิต
Degree Level:	ปริญญาโท
Degree Discipline:	วิศวกรรมคอมพิวเตอร์
URI:	http://cuir.car.chula.ac.th/handle/123456789/61555
URI:	http://doi.org/10.58837/CHULA.THE.2018.1261
metadata.dc.identifier.DOI:	10.58837/CHULA.THE.2018.1261
Type:	Thesis
Appears in Collections:	Eng - Theses

Files in This Item:

File	Description	Size	Format
5870234121.pdf		2.87 MB	Adobe PDF	View/Open

Show full item record