Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/1270
Title: | การรู้จำเสียงพูดภาษาไทยอย่างคงทนโดยใช้สัมประสิทธิ์เมลฟรีเคว็นซีเซปสตรอลของค่าอัตสหสัมพันธ์ของเสียงพูดที่มีสัญญาณรบกวน |
Other Titles: | Robust Thai speech recognition using MFCC of noisy speech autocorrelation |
Authors: | เจษฎา กานต์ประชา, 2520- |
Advisors: | สมชาย จิตะพันธ์กุล |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Advisor's Email: | Somchai.J@chula.ac.th |
Subjects: | การรู้จำเสียงพูดอัตโนมัติ ภาษาไทย สัญญาณรบกวนทางไฟฟ้า |
Issue Date: | 2545 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์เพื่อนำเสนอการรู้จำเสียงพูดภาษาไทยอย่างคงทน การพัฒนาจะมุ่งความสนใจไปที่การหาค่าลักษณะสำคัญของสัญญาณเสียงพูดที่คงทนต่อสัญญาณรบกวนเกาส์เซียนขาวค่าเฉลี่ยศูนย์เพิ่มเข้ามา โดยใช้สัมประสิทธิ์เมลฟรีเคว็นซีเซปสตรอลของค่าอัตสหสัมพันธ์ของเสียงพูดซึ่งมีสัญญาณรบกวนเป็นสัญญาณเข้าในการหาค่าลักษณะสำคัญแทนสัญญาณเสียงพูด เนื่องจากมีความคงทนต่อสัญญาณรบกวนดังกล่าวมากกว่าตัวสัญญาณเสียงพูด กำหนดให้ระบบรู้จำเสียงพูดที่ใช้เป็นแบบไม่ขึ้นกับผู้พูด ใช้ระบบรู้จำเป็นแบบจำลองฮิดเดนมาร์คอฟ กลุ่มเสียงพูดคำโดดภาษาไทยที่ใช้ในการฝึกฝนและทดสอบจะแบ่งเป็น 5 กลุ่มตามเสียงวรรณยุกต์คือ สามัญ เอก โท ตรี และจัตวา การเปรียบเทียบอัตรารู้จำเฉลี่ยที่ได้จะเปรียบเทียบกับ อัตราการรู้จำเฉลี่ยที่ใช้สัมประสิทธิ์เมลฟรีเคว็นซีเซปสตรอลของเสียงพูดที่มีจำนวนอันดับเท่ากัน ผลการทดสอบปรากฏว่า ค่าสัมประสิทธิ์เมลฟรีเคว็นซีเซปสตรอลของค่าอัตสหสัมพันธ์ของเสียงพูด อันดับ 32 เมื่อใช้กับเสียงพูดกลุ่มเสียงวรรณยุกต์สามัญ เอก โท และตรี ที่มีค่ากำลังสัญญาณต่อสัญญาณรบกวนน้อยกว่า 25 เดซิเบล ลงไป ให้ผลอัตราการรู้จำเฉลี่ยที่ดีกว่าสัมประสิทธิ์เมลฟรีเคว็นซีเซปสตรอลของเสียงพูดที่มีจำนวนอันดับเท่ากัน เฉลี่ยคิดเป็นร้อยละ 12.60 และให้ผลอัตราการรู้จำเฉลี่ยที่ดีกว่าในเสียงพูดกลุ่มเสียงวรรณยุกต์จัตวา เมื่อเลือกใช้จำนวนอันดับเป็น 16 ที่มีค่ากำลังสัญญาณต่อสัญญาณรบกวนในช่วงตั้งแต่ 5 เดซิเบล ไปจนถึง 20 เดซิเบล เฉลี่ยคิดเป็นร้อยละ 3.99 |
Other Abstract: | This thesis has the objective to develop a robust Thai speech recognition using robust speech feature with Hidden Markov Model. The system is an isolated word speaker independent system. Mel frequency cepstral coefficient of noisy speech autocorrelation is proposed to improved the robustness of the system to additive zero mean white gaussian noise. Thai isolated words are categorized to 5 classes according to their tones, mid tone, low tone, falling tone, high tone, and rising tone. The average recognition rate using MFCC of noisy speech autocorrelation is compared with MFCC of noisy speech in the same order. The experiment results show that the average recognition rate of MFCC of noisy speech autocorrelation order 32 is 12.60 percent better than MFCC of noisy speech at SNR < 25 dB for the mid tone, low tone, falling tone, and high tone. In the rising tone, the average recognition rate of MFCC of noisy speech autocorrelation order 16 is 3.99 percent better than MFCC of noisy speech between 5dB<=SNR<=20dB. |
Description: | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2545 |
Degree Name: | วิศวกรรมศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิศวกรรมไฟฟ้า |
URI: | http://cuir.car.chula.ac.th/handle/123456789/1270 |
ISBN: | 9741721277 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Jetsada.pdf | 10.96 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.