dc.contributor.advisor |
Ekapol Chuangsuwanich |
|
dc.contributor.advisor |
Atiwong Suchato |
|
dc.contributor.author |
Thananchai Kongthaworn |
|
dc.contributor.other |
Chulalongkorn University. Faculty of Engineering |
|
dc.date.accessioned |
2022-07-23T05:14:34Z |
|
dc.date.available |
2022-07-23T05:14:34Z |
|
dc.date.issued |
2021 |
|
dc.identifier.uri |
http://cuir.car.chula.ac.th/handle/123456789/80098 |
|
dc.description |
Thesis (M.Eng.)--Chulalongkorn University, 2021 |
|
dc.description.abstract |
One of the main problems in the development of text-to-speech (TTS) systems is its reliance on subjective measures, typically the Mean Opinion Score (MOS). MOS requires a large number of people to reliably rate each utterance, making the development process slow and expensive. Recent research on speech quality assessment tends to focus on training models to estimate MOS, which requires a large number of training data, something that might not be available in low-resource languages. We propose an objective assessment metric based on the DTW distance using the spectrogram and the high-level features from an Automatic Speech Recognition (ASR) model to cover both acoustic and linguistic information. Experiments on Thai TTS and the Blizzard Challenge datasets show that our method outperformed other baselines in both utterance- and system-level by a large margin in terms of correlation coefficients. Our metric also outperformed the best baseline by 9.58% when used in head-to-head utterance-level comparisons. Ablation studies suggest that the middle layers of the ASR model are most suitable for TTS evaluation when used in conjunction with spectral features. |
|
dc.description.abstractalternative |
ปัญหาหลักประการหนึ่งในการพัฒนาระบบแปลงข้อความเป็นเสียงพูด (TTS) คือการวัดนิยมใช้การวัดเชิงอัตวิสัยอย่าง Mean Opinion Score (MOS) ซึ่งต้องใช้คนจำนวนมากในการให้คะแนนเสียงพูดแต่ละเสียงเพื่อความน่าเชื่อถือ ทำให้กระบวนการพัฒนาช้าและมีค่าใช้จ่ายสูง งานวิจัยล่าสุดเกี่ยวกับการประเมินคุณภาพเสียงพูดมีแนวโน้มที่จะมุ่งเน้นไปที่ใช้สร้างโมเดลมาประเมิน MOS ซึ่งต้องใช้ข้อมูลการฝึกฝนจำนวนมาก ซึ่งข้อมูลเหล่านี้อาจไม่มีให้ใช้งานในภาษาที่ใช้ทรัพยากรต่ำ งานนี้จึงนำเสนอการประเมินเชิงวัตถุประสงค์แบบ DTW โดยใช้สเปกโตรแกรมและคุณสมบัติระดับสูงจากแบบจำลองการรู้จำเสียงอัตโนมัติ (ASR) เพื่อให้ครอบคลุมทั้งข้อมูลเสียงและภาษาศาสตร์ การทดลองบนชุดข้อมูล Thai TTS และ Blizzard Challenge แสดงให้เห็นว่าวิธีการที่นำเสนอมีประสิทธิภาพเหนือกว่าวิธีการวัดอื่นๆ ที่นำมาเป็นบรรทัดฐาน ทั้งในระดับประโยคและระดับระบบในแง่ของค่าสัมประสิทธิ์สหสัมพันธ์ เมตริกของเรายังทำได้ดีกว่าบรรทัดฐานที่ดีที่สุด 9.58% เมื่อใช้ในการเปรียบเทียบระดับประโยคแบบตัวต่อตัว จากการศึกษาเพิ่มเติมแนะนำว่าชั้นกลางของแบบจำลอง ASR เหมาะสมที่สุดสำหรับการประเมิน TTS เมื่อใช้ร่วมกับคุณลัก |
|
dc.language.iso |
en |
|
dc.publisher |
Chulalongkorn University |
|
dc.relation.uri |
http://doi.org/10.58837/CHULA.THE.2021.101 |
|
dc.rights |
Chulalongkorn University |
|
dc.subject.classification |
Computer Science |
|
dc.subject.classification |
Computer Science |
|
dc.title |
Spectral and latent representation distortion for TTS evaluation |
|
dc.title.alternative |
การใช้คุณสมบัติทางสเปคตรัลกับคุณลักษณะซ่อนสำหรับการประเมินระบบสังเคราะห์เสียงพูด |
|
dc.type |
Thesis |
|
dc.degree.name |
Master of Engineering |
|
dc.degree.level |
Master’s Degree |
|
dc.degree.discipline |
Computer Engineering |
|
dc.degree.grantor |
Chulalongkorn University |
|
dc.identifier.DOI |
10.58837/CHULA.THE.2021.101 |
|