Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/35943
Title: การออกแบบและพัฒนาการสังเคราะห์เสียงพูดภาษาไทยแบบเชื่อมต่อโดยใช้ฐานข้อมูลเสียงพูดขนาดเล็ก
Other Titles: Design and development of concatenative Thai speech synthesis using a small speech corpus
Authors: ต่อศักดิ์ สุนทรพันธุ์
Advisors: อติวงศ์ สุชาโต
โปรดปราน บุณยพุกกณะ
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: Atiwong.S@Chula.ac.th
proadpran.p@chula.ac.th
Subjects: เสียงพูด -- ฐานข้อมูล
การรู้จำเสียงพูดอัตโนมัติ
การออกแบบฐานข้อมูล
Database design
Voice -- Databases
Automatic speech recognition
Issue Date: 2551
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: วิทยานิพนธ์นี้นำเสนอการออกแบบและพัฒนาการสังเคราะห์เสียงพูดภาษาไทยแบบเชื่อมต่อจากฐานข้อมูลเสียงพูดขนาดเล็ก โดยใช้วิธีการคัดเลือกหน่วยเสียง และการออกแบบฐานข้อมูลเสียงพูดอย่างมีประสิทธิภาพ โดยใช้หน่วยเสียงอัฒพยางค์เป็นหน่วยเสียงพื้นฐาน โดยนำพยางค์ และคำที่มีสถิติการปรากฏอยู่ในข้อความภาษาไทยมากที่สุดที่ตรงกับหน่วยเสียงอัฒพยางค์ที่ได้ออกแบบไว้มาสร้างประโยคเพื่อใช้จัดเก็บเสียงพูด ฐานข้อมูลเสียงพูดที่ได้ประกอบด้วยข้อความจำนวน 73 ข้อความ (687 พยางค์ หรือ 1,892 โฟนีม) และมีขนาดของฐานข้อมูลเท่ากับ 4.26 MB ที่อัตราสุ่มตัวอย่าง 8 kHz สำหรับการบันทึกเสียงพูด ในการประเมินผลได้ทำการวัดคุณภาพโดยรวมของเสียงสังเคราะห์ด้วยวิธีเอ็มโอเอส (MOS) ซึ่งได้คะแนนเท่ากับ 3.33 คะแนน และได้นำเสียงสังเคราะห์ที่ได้จากงานวิจัยนี้ไปเปรียบเทียบกับเสียงสังเคราะห์ของวาจา 2 เป็นระบบสังเคราะห์เสียงที่ใช้เทคนิคการสังเคราะห์เสียงแบบอัฒพยางค์ ซึ่งผลการเปรียบเทียบคุณภาพโดยรวมของเสียงสังเคราะห์ด้วยวิธีซีซีอาร์ (CCR) ปรากฏว่าเสียงสังเคราะห์ของงานวิจัยนี้ทำคะแนนได้ดีกว่าอยู่ 0.674 คะแนน
Other Abstract: This thesis presents a design and development of a concatenative speech synthesis from a small Thai speech corpus, using a unit selection technique where the design of the speech corpus is heavily emphasized. Demisyllable units, used as the smallest units of the concatenation, are statistically selected from the most frequently-used syllables and words appearing in Thai articles. Utterance transcriptions for sound recording are designed to efficiently contained these syllables and words. The speech corpus consists of 73 sentences (687 syllables or 1,892 phoneme units) has a 4.26 MB disk size at 8 kHz sampling rate of voice record. A subjective test shows a 3.33 mean opinion score on the synthesized speech quality. The synthetic utterances are also evaluated in comparison with the Vaja2 demisyllable speech synthesis system. Such a subjective direct comparison yields a 0.674 comparison category rating score in favor of the proposed system
Description: วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2551
Degree Name: วิศวกรรมศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิศวกรรมคอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/35943
URI: http://doi.org/10.14457/CU.the.2008.808
metadata.dc.identifier.DOI: 10.14457/CU.the.2008.808
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
torsak_so.pdf2.79 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.