DSpace Repository

Spectral and latent representation distortion for TTS evaluation

Show simple item record

dc.contributor.advisor Ekapol Chuangsuwanich
dc.contributor.advisor Atiwong Suchato
dc.contributor.author Thananchai Kongthaworn
dc.contributor.other Chulalongkorn University. Faculty of Engineering
dc.date.accessioned 2022-07-23T05:14:34Z
dc.date.available 2022-07-23T05:14:34Z
dc.date.issued 2021
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/80098
dc.description Thesis (M.Eng.)--Chulalongkorn University, 2021
dc.description.abstract One of the main problems in the development of text-to-speech (TTS) systems is its reliance on subjective measures, typically the Mean Opinion Score (MOS). MOS requires a large number of people to reliably rate each utterance, making the development process slow and expensive. Recent research on speech quality assessment tends to focus on training models to estimate MOS, which requires a large number of training data, something that might not be available in low-resource languages. We propose an objective assessment metric based on the DTW distance using the spectrogram and the high-level features from an Automatic Speech Recognition (ASR) model to cover both acoustic and linguistic information. Experiments on Thai TTS and the Blizzard Challenge datasets show that our method outperformed other baselines in both utterance- and system-level by a large margin in terms of correlation coefficients. Our metric also outperformed the best baseline by 9.58% when used in head-to-head utterance-level comparisons. Ablation studies suggest that the middle layers of the ASR model are most suitable for TTS evaluation when used in conjunction with spectral features.
dc.description.abstractalternative ปัญหาหลักประการหนึ่งในการพัฒนาระบบแปลงข้อความเป็นเสียงพูด (TTS) คือการวัดนิยมใช้การวัดเชิงอัตวิสัยอย่าง Mean Opinion Score (MOS) ซึ่งต้องใช้คนจำนวนมากในการให้คะแนนเสียงพูดแต่ละเสียงเพื่อความน่าเชื่อถือ ทำให้กระบวนการพัฒนาช้าและมีค่าใช้จ่ายสูง งานวิจัยล่าสุดเกี่ยวกับการประเมินคุณภาพเสียงพูดมีแนวโน้มที่จะมุ่งเน้นไปที่ใช้สร้างโมเดลมาประเมิน MOS ซึ่งต้องใช้ข้อมูลการฝึกฝนจำนวนมาก ซึ่งข้อมูลเหล่านี้อาจไม่มีให้ใช้งานในภาษาที่ใช้ทรัพยากรต่ำ งานนี้จึงนำเสนอการประเมินเชิงวัตถุประสงค์แบบ DTW โดยใช้สเปกโตรแกรมและคุณสมบัติระดับสูงจากแบบจำลองการรู้จำเสียงอัตโนมัติ (ASR) เพื่อให้ครอบคลุมทั้งข้อมูลเสียงและภาษาศาสตร์ การทดลองบนชุดข้อมูล Thai TTS และ Blizzard Challenge แสดงให้เห็นว่าวิธีการที่นำเสนอมีประสิทธิภาพเหนือกว่าวิธีการวัดอื่นๆ ที่นำมาเป็นบรรทัดฐาน ทั้งในระดับประโยคและระดับระบบในแง่ของค่าสัมประสิทธิ์สหสัมพันธ์ เมตริกของเรายังทำได้ดีกว่าบรรทัดฐานที่ดีที่สุด 9.58% เมื่อใช้ในการเปรียบเทียบระดับประโยคแบบตัวต่อตัว จากการศึกษาเพิ่มเติมแนะนำว่าชั้นกลางของแบบจำลอง ASR เหมาะสมที่สุดสำหรับการประเมิน TTS เมื่อใช้ร่วมกับคุณลัก
dc.language.iso en
dc.publisher Chulalongkorn University
dc.relation.uri http://doi.org/10.58837/CHULA.THE.2021.101
dc.rights Chulalongkorn University
dc.subject.classification Computer Science
dc.subject.classification Computer Science
dc.title Spectral and latent representation distortion for TTS evaluation
dc.title.alternative การใช้คุณสมบัติทางสเปคตรัลกับคุณลักษณะซ่อนสำหรับการประเมินระบบสังเคราะห์เสียงพูด
dc.type Thesis
dc.degree.name Master of Engineering
dc.degree.level Master’s Degree
dc.degree.discipline Computer Engineering
dc.degree.grantor Chulalongkorn University
dc.identifier.DOI 10.58837/CHULA.THE.2021.101


Files in this item

This item appears in the following Collection(s)

Show simple item record