Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/1280
Title: | ค่าลักษณะสำคัญแบบคงทนต่อสัญญาณรบกวนของการรู้จำเสียงพูดภาษาไทยโดยใช้เทคนิคลดสัญญาณรบกวนแบบปรับตัวได้ |
Other Titles: | Noise robust feature of Thai speech recognition using adaptive noise reduction technique |
Authors: | ณัฐพล อุ่นศรี, 2520- |
Advisors: | สมชาย จิตะพันธ์กุล |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Advisor's Email: | Somchai.J@chula.ac.th |
Subjects: | การรู้จำเสียงพูดอัตโนมัติ สัญญาณรบกวนทางอิเล็กทรอนิกส์ ภาษาไทย การประมาณพันธะเชิงเส้น |
Issue Date: | 2545 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์ เพื่อนำเสนอค่าลักษณะสำคัญแบบคงทนต่อสัญญาณรบกวนเกาส์เซียนขาวค่าเฉลี่ยศูนย์แบบบวก โดยใช้เทคนิคลดสัญญาณรบกวนแบบปรับตัวได้โดยใช้ค่าเจาะจงต่ำสุดของเมตริกซ์อัตสหสัมพันธ์ของสัญญาณเสียงพูดเป็นค่าพารามิเตอร์ในการปรับลดสัญญาณรบกวน เพื่อให้ระบบรู้จำเสียงพูดภาษาไทยมีความคงทนเมื่อใช้งานในสภาพแวดล้อมที่มีสัญญาณรบกวน โดยใช้แบบจำลองฮิดเดนมาร์คอฟชนิดต่อเนื่องสำหรับการฝึกฝนและทดสอบ ค่าลักษณะสำคัญพื้นฐานที่ใช้เป็นตัวเปรียบเทียบประสิทธิภาพของค่าลักษณะสำคัญแบบคงทนคือ สัมประสิทธิ์การประมาณพันธะเชิงเส้น และสัมประสิทธิ์เซปตรอล ชุดคำศัพท์ประกอบไปด้วยคำศัพท์จำนวน 50 คำแบ่งเป็น 6 ชุด ได้แก่ชุดคำศัพท์ตัวเลขศูนย์ถึงเก้าจำนวน 10 คำ ชุดคำศัพท์เสียงวรรณยุกต์ไทยเสียงสามัญ จำนวน 8 คำ ชุดคำศัพท์เสียงวรรณยุกต์ไทยเสียงเอก จำนวน 8 คำ ชุดคำศัพท์เสียงวรรณยุกต์ไทยเสียงโท จำนวน 8 คำ ชุดคำศัพท์เสียงวรรณยุกต์ไทยเสียงตรี จำนวน 8 คำ และชุดคำศัพท์เสียงวรรณยุกต์ไทยเสียงจัตวา จำนวน 8 คำ ในการวิจัยนี้ได้ทดลองปรับเปลี่ยนจำนวนสถานะและจำนวน Gaussian mixture ของระบบเพื่อหาระบบที่เหมาะสมสำหรับการรู้จำเสียงพูด อีกทั้งยังทำการทดสอบเพื่อวิเคราะห์ผลของการทำเน้นล่วงหน้า ผลการทดสอบอัตราการรู้จำแบบไม่ขึ้นกับผู้พูดของชุดคำศัพท์ตัวเลขศูนย์ถึงเก้าเมื่อค่าอัตราส่วนสัญญาณต่อสัญญาณรบกวนเป็น 0 เดซิเบลโดยใช้ค่าลักษณะสำคัญแบบคงทนต่อสัญญาณรบกวนมีค่าร้อยละ 38.00 เมื่ออัตราการรู้จำก่อนลดสัญญาณรบกวนมีค่าร้อยละ 10.42 อัตราการู้จำของชุดคำศัพท์เสียงวรรณยุกต์ไทยเสียงสามัญ เอก โท ตรี และจัตวาเมื่อค่าอัตราส่วนสัญญาณต่อสัญญาณรบกวนเป็น 0 เดซิเบลโดยใช้ค่าลักษณะสำคัญแบบคงทนต่อสัญญาณรบกวนมีค่าร้อยละ 31.65 33.64 38.69 34.26 และ 32.44 เมื่ออัตราการรู้จำก่อนลดสัญญาณรบกวนมีค่าร้อยละ 12.27 14.49 16.25 13.98 และ 13.75 ตามลำดับ อัตราการรู้จำเฉลี่ยสูงสุดของเสียงตัวเลขภาษาไทย โดยคำนวณจากการนำอัตราการรู้จำของแต่ละค่าลักษณะสำคัญในแต่ละอันดับสำหรับทุกค่า SNR มาทำการเฉลี่ยเป็นร้อยละ 62.95 ขณะที่อัตราการรู้จำเฉลี่ยสูงสุดก่อนปรับลดสัญญาณรบกวนเป็นร้อยละ 36.65 และอัตราการรู้จำเฉลี่ยสูงสุดของเสียงวรรณยุกต์ไทยเสียงสามัญ เอก โท ตรี และจัตวา โดยคำนวณจากการนำอัตราการรู้จำของแต่ละค่าลักษณะสำคัญในแต่ละอันดับสำหรับทุกค่า SNR มาทำการเฉลี่ยเป็นร้อยละ 59.85 62.67 57.96 50.12 และ 55.33 ขณะที่อัตราการรู้จำเฉลี่ยสูงสุดก่อนปรับลดสัญญาณรบกวนเป็นร้อยละ 28.55 35.69 32.56 29.82 และ 34.26 ตามลำดับ อัตราการรู้จำเฉลี่ยสูงสุดของระบบเมื่อใช้ค่าลักษณะสำคัญแบบคงทนต่อสัญญาณรบกวนเป็นร้อยละ 57.68 ขณะที่อัตราการรู้จำเฉลี่ยรวมสูงสุดของระบบก่อนปรับลดสัญญาณรบกวนเป็นร้อยละ 32.28 ซึ่งเพิ่มขึ้นร้อยละ 78.69 |
Other Abstract: | The objective of this thesis is to propose robust feature to additive zero mean white Gaussian noise using adaptive noise reduction technique in order to obtain robust Thai speech recognition system in noisy environment. Continuous Hidden Markov Model is used for training and testing. Linear prediction coefficients and cepstrum coefficients are used to compare the performance of the robust features. The 50-word vocabularies are subdivided into six sets comprising middle, low, high, falling and rising tones for five Thai tonal levels, 8 words in each set, and last set consisting of 10-Thai numeric words, zero to nine. In this research, the number of states and Gaussian mixtures in continuous Hidden Markov model are varied to obtain the optimal system for speech recognition, and also, analysis of preemphasis effect. The recognition rate of this speaker-independent recognition system of numeric words when signal to noise ratio is 0 decibel is 38.00 percent and 31.65, 33.64, 38.69, 34.26 and 32.44 percent respectively for the five Thai tonal levels, namely, middle, low, high, falling and rising tones when using the robust features and 12.27 percent for numeric word, and 12.27, 14.49, 16.25, 13.98 and 13.75 percent for the five Thai tonal levels respectively when using non-noise reduction features. The maximum of average recognition rate that is calculated from all SNR for each order feature. The maximum of average recognition rate is 69.25 percent for numeric words and for five Thai tonal levels middle, low, high, falling and rising tones, are 59.85, 62.67, 57.96, 50.12 and 55.33 percent respectively when using the robust features and 36.65 for numeric words, and 28.55, 35.69, 32.56, 29.82 and 34.26 percent for five Thai tonal levels, respectively when using non-noise reduction features. The maximum recognition rate of system when using noise robust features is 57.68 percent and 32.28 percent when using non-noise reduction features. Noise robust features improve the recognition rate of Thai speech recognition 78.69 percent. |
Description: | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2545 |
Degree Name: | วิศวกรรมศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิศวกรรมไฟฟ้า |
URI: | http://cuir.car.chula.ac.th/handle/123456789/1280 |
ISBN: | 9741721269 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Nattapol.pdf | 1.97 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.