Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/1394
Title: An acoustic study of syllable onsets : a basis for Thai continuous speech recognition system
Other Titles: การศึกษาหน่วยเริ่มของพยางค์เชิงกลสัทศาสตร์ : พื้นฐานสำหรับระบบการรู้จำเสียงพูดต่อเนื่องภาษาไทย
Authors: Visarut Ahkuputra
Advisors: Somchai Jitapunkul
Sudaporn Luksaneeyanawin
Other author: Chulalongkorn University. Faculty of Engineering
Advisor's Email: Somchai.J@chula.ac.th
Sudaporn.L@chula.ac.th
Subjects: Automatic speech recognition
Thai language--Syllabication
Phonetics
Issue Date: 2002
Publisher: Chulalongkorn University
Abstract: To develop a new acoustic speech units on modelling of the Thai onset units. The concept of onset and rhyme units is applied to Thai continuous speech recognition. Thai syllables are acoustically analysed and found that a syllable is composed of a pair of onset and rhyme units. The onset unit incorporates transitional period existed between releasing consonant and its adjacent vowel. The rhyme unit covers both vowel and arresting consonant. The transitional period has unique acoustic characteristics depending on releasing consonant and vowel which is crucial in recognition of the consonant. Two acoustic models of the onset-rhyme unit are introduced in this dissertation-Phonotactic Onset-Rhyme Models (PORMs) and Contextual Onset-Rhyme Models (CORMs). The PORMs consider the same releasing consonant in different context as different models. This results in 792 onset units and 200 rhyme units. The CORMs consider the same releasing consonant within similar short-long vowel context as the same models. The number of onset units is then reduced to only 297 units. In modelling of the onset units, the onset unit overlaps over vowel seqment of rhyme unit to cover transitional period between releasing consonant and adjacent vowel. Two overlapping techniques are proposed in modelling of the onset units-fixed duration overlap and variable duration overlap. The fixed duration overlap has constant duration at 10, 20, or 30 ms into the vowel segment. The variable duration overlap has variable duration at either 5%, 10%, 15%, 20%, or 25% of the vowel segment. Due to limited speech data and only one male speaker, only partial set of the onset and rhyme units are modelled in the speaker-dependent recognition system. The PORMs and CORMs contain 384 onset units and 218 onset units, respectively. Both models share the same 144 rhyme units. Acoustic models of these onset and rhyme units are created using Hidden Markov Models. The lowest onset error rate achieved is 10.38% using the CORMs at 25% overlap. Considering both onset and rhyme units, the PORMs provide better word error rate at 13.53% using 20% overlap with no grammar. The CORMs give out 16.51% word error rate at 15% overlap. The phone models give out 37.12% word error rate. Hence, the PORMs outperform the phone models up to 55.76% reduction in word error rate
Other Abstract: พัฒนาหน่วยเสียงในเชิงกลสัทศาสตร์ สำหรับแบบจำลองหน่วยเริ่มพยางค์ภาษาไทย หลักการของหน่วยเริ่มพยางค์และหน่วยตามพยางค์นี้ ได้ถูกนำมาประยุกต์ใช้ในการรู้จำเสียงพูดต่อเนื่องภาษาไทย พยางค์ในภาษาไทยได้รับการวิเคราะห์ในเชิงกลสัทศาสตร์และพบว่า พยางค์ประกอบด้วยคู่ของหน่วยเริ่มพยางค์และหน่วยตามพยางค์ โดยหน่วยเริ่มพยางค์นั้นได้รวมส่วนของ Transitional Period ระหว่างพยัญชนะต้นและสระที่อยู่ติดกัน ส่วนหน่วยตามพยางค์นั้นครอบคลุมทั้งส่วนสระและพยัญชนะตัวสะกด ส่วน Transitional Period นั้นมีลักษณะเฉพาะในเชิงกลสัทศาสตร์ตามพยัญชนะต้นและสระ ซึ่งจำเป็นสำหรับการรู้จำพยัญชนะต้น งานวิจัยนี้ได้นำเสนอแบบจำลองเชิงกลสัทศาสตร์ของหน่วยเริ่มพยางค์ไว้ 2 ประเภท ได้แก่ Phonotactic (PORMs) และ Contextual (CORMs) แบบจำลองชนิด PORMs นั้นพิจารณาพยัญชนะต้นในบริบทของสระที่แตกต่างกันว่า เป็นคนละหน่วยเสียง จึงมีจำนวนหน่วยเริ่มพยางค์ 792 หน่วยและหน่วยตามพยางค์ 200 หน่วย สำหรับแบบจำลองชนิด CORMs จะพิจารณารวมหน่วยเริ่มพยางค์ที่อยู่ในบริบทของ คู่สระสั้น-ยาวเดียวกันไว้เป็นหน่วยเสียงเดียวกัน ทำให้หน่วยเริ่มพยางค์ลดลงเหลือเพียง 297 หน่วย ในการสร้างแบบจำลองหน่วยเริ่มพยางค์นั้น หน่วยเริ่มพยางค์จะซ้อนทับกับส่วนสระของหน่วยตามพยางค์ เพื่อครอบคลุมส่วน Transitional Period ระหว่างพยัญชนะต้นและสระที่อยู่ติดกัน งานวิจัยนี้ได้นำเสนอเทคนิคการซ้อนทับกัน ของแบบจำลองหน่วยเริ่มพยางค์ทั้งสองไว้ 2 วิธีการ ได้แก่ การซ้อนทับกันแบบคงที่ (Fixed) และแบบแปรผัน (Variable) โดยการซ้อนทับกันแบบคงที่จะมีระยะซ้อนกับที่ 10 20 หรือ 30 มิลลิวินาทีเข้าไปยังส่วนสระ สำหรับการซ้อนทับกันแบบแปรผันจะขึ้นกับความยาวของส่วนสระที่ร้อยละ 5 10 15 20 หรือ 25 ของความยาวส่วนสระ เนื่องจากมีข้อมูลเสียงพูดผู้ชายเพียงคนเดียว จึงมีหน่วยเริ่มและหน่วยตามพยางค์เพียงบางส่วนที่ถูกจำลองแบบ แบบจำลองชนิด PORMs และ CORMs มีหน่วยเริ่มพยางค์ 384 หน่วยและ 218 หน่วยตามลำดับโดยมีหน่วยตาม 144 หน่วย แบบจำลองของหน่วยเริ่มและหน่วยตามพยางค์นี้ถูกสร้างขึ้น โดยใช้แบบจำลองฮิดเดนมาร์คอฟ อัตรารู้จำหน่วยเริ่มพยางค์ผิดพลาดที่ต่ำที่สุดมีค่าร้อยละ 10.38 เมื่อใช้แบบจำลองชนิด CORMs ที่ระยะซ้อนทับร้อยละ 25 เมื่อพิจารณาถึงแบบจำลองหน่วยเริ่มและหน่วยตาม แบบจำลองชนิด PORMs จะให้อัตรารู้จำคำผิดพลาดร้อยละ 13.52 ที่ระยะซ้อนทับร้อยละ 20 ส่วนแบบจำลองชนิด CORMs จะให้อัตรารู้จำคำผิดพลาดร้อยละ 16.51 ที่ระยะซ้อนทับร้อยละ 15 ส่วน แบบจำลอง phone ให้อัตรารู้จำคำผิดพลาดร้อยละ 37.12 ดังนั้นแบบจำลองชนิด PORMs ให้ผลที่ดีกว่าแบบจำลอง phone โดยลดอัตรารู้จำคำผิดพลาดได้มากถึง 55.72%
Description: Thesis (D.Eng.)--Chulalongkorn University, 2002
Degree Name: Doctor of Engineering
Degree Level: Doctoral Degree
Degree Discipline: Electrical Engineering
URI: http://cuir.car.chula.ac.th/handle/123456789/1394
ISBN: 9741713584
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Visarut.pdf2.55 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.