Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/56679
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | อติวงศ์ สุชาโต | - |
dc.contributor.advisor | โปรดปราน บุณยพุกกณะ | - |
dc.contributor.author | ไพโรจน์ ลีลาภัทรกิจ | - |
dc.contributor.other | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ | - |
dc.date.accessioned | 2018-01-03T07:17:00Z | - |
dc.date.available | 2018-01-03T07:17:00Z | - |
dc.date.issued | 2549 | - |
dc.identifier.uri | http://cuir.car.chula.ac.th/handle/123456789/56679 | - |
dc.description | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2549 | en_US |
dc.description.abstract | ในระบบรู้จำเสียงพูดแบบอาศัยเซกเมนต์ จะต้องแบ่งเสียงพูดออกเป็นเซกเมนต์ โดยมีวัตถุประสงค์เพื่อค้นหาขอบเขตของหน่วยเสียงหรือตำแหน่งบอกเวลาเริ่มต้นและสิ้นสุดของหน่วยเสียง แล้วนำไปสร้างเป็นกราฟของเซกเมนต์ ซึ่งจะถูกใช้เป็นข้อมูลขาเข้าของขั้นตอนการู้จำเสียงพูด เพื่อค้นหาลำดับของหน่วยเสียงที่ดีทีสุดออกมา เป้าหมายของวิทยานิพนธ์นี้ ต้องการพัฒนาวิธีการแบ่งเสียงพูดเป็นเซกเมนต์ที่มีประสิทธิภาพและสามารถทำงานได้อย่างรวดเร็ว เพื่อนำไปใช้ในระบบรู้จำเสียงพูดแบบอาศัยเซกเมนต์ วิธีการแบ่งเสียงพูดเป็นเซกเมนต์แบบเดิมนั้นจะอาศัยเครื่องรู้จำเสียงพูดในระดับหน่วยเสียงมาค้นหาขอบเขตของหน่ยเสียง แต่เนื่องจากประสิทธิภาพนั้นยังห่างไกลกับประสิทธิภาพของวิธีการแบ่งเสียงพูดเป็นเซกเมนต์ด้วยคน อีกทั้งกราฟของเซกเมนต์ที่ได้มีขนาดใหญ่และใช้เวลาในการทำงานนาน จึงไม่เหมาะกับระบบรู้จำเสียงพูดที่ต้องการความรวดเร็ว วิทยานิพนธ์นี้จึงเสนอวิธีการแบ่งเสียงพูดเป็นเซกเมนต์ที่มีประสิทธิภาพดีกว่า โดยมีขั้นตอนการทำงานสองขั้นตอน คือ ขั้นตอนการหาขอบเขตของหน่วยเสียงจากตำแหน่งที่มีการเปลี่ยนแปลงลักษณะการออกเสียง โดยอาศัยลักษณะสำคัญของเสียงที่ได้จากการใช้สารสนเทศสวนสัทศาสตร์และอาศัยซัพพอร์ตเวกเตอร์แมชชีนมาจำแนกเสียงพูดตามลักษณะการออกเสียงขั้นตอนต่อมาจะสร้างกราฟของเซกเมนต์โดยใช้วิธีการสร้างกราฟของเซกเมนต์ โดยใช้วิธีการสร้างกราฟแบบหลายระดับ รวมถึงมีการคิดคะแนนให้กับขอบเขตของหน่วยเสียงที่หามาได้จากค่าการเปลี่ยนแปลงสเปกตรัม การทดลองทั้งหมดจะทดสอบโดยใช้ฐานข้อมูลเสียงพูดภาษาไทย โดยเมื่อยอมให้ขอบเขตของหน่วยเสียงที่หามาได้คลาดเคลื่อนไปจากขอบเขตของหน่วยเสียงอ้างอิงได้ไม่เกิน 20 มิลลิวินาที วิธีการแบ่งเสียงพูด เป็นเซกเมนต์นี้จะสามารถค้นหาขอบเขตของหน่วยเสียง ได้ความแม่นยำและความครอบคลุมเพิ่มขึ้น 8.3% (จาก 68.0% เป็น 76.3%) และ 5.1% (จาก 82.1% เป็น 87.2%) ตามลำดับ และสามารถลดขนาดกราฟของเซกเมนต์ได้ประมาณ 14 เท่าโดยที่ยังรักษาระดับความครอบคลุมไว้ได้ที่ 77.4% เมื่อเปรียบกับวิธีการแบ่งเสียงพูดเป็นเซกเมนต์แบบอาศัยเครื่องรู้จำเสียงพูด | en_US |
dc.description.abstractalternative | Segment-based speech recognition systems must explicitly hypothesize segment start and end times. The purpose of a segmentation algorithm is to hypothesize those times and to compose a graph of segments from them. During recognition, this graph is an input to a search that finds the optimal sequence of sound units through the graph. The goal of this thesis is to create a high-quality, real-time phonetic segmentation algorithm for segment-based speech recognition. The baseline algorithm makes use frame-based phonetic recognizer to hypothesize possible phonetic segments but its performance was still far from human's ability to perform such a task. This thesis addresses the quality and computational requirements by employing more efficient phonetic segmentation algorithm, and by shrinking the search space. The algorithm is done in two stages. Boundaries are detected in the first stage via manner-of-articulation changes by using acoustic features obtained from acoustic-phonetic information and applying multiple Support Vector Machines for the classification of manner features. Multi-Level segmentation is used to compose a graph from the boundary list for the graph size reduction. In addition, it includes a landmark scoring by utilizing the spectral transition measurement. Experiments reported were done on Thai continuous speech corpus. Allowing at most 20 ms. Deviation form the actual boundaries, the algorithm detects boundaries that have over 8.3% and 5.1% improvement in precision (from 68.0% to 76.3%) and recall rate (from 82.1% to 87.2%) and produces a segment-graph that has over 14 times fewer segments while still maintaining a 77.4% in recall rate over a baseline speech segmentation algorithm. | en_US |
dc.language.iso | th | en_US |
dc.publisher | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.relation.uri | http://doi.org/10.14457/CU.the.2006.1416 | - |
dc.rights | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.subject | พยัญชนะ | en_US |
dc.subject | หน่วยเสียง | en_US |
dc.subject | ภาษาไทย -- สระ | en_US |
dc.subject | ภาษาไทย -- สัทศาสตร์ | en_US |
dc.subject | การรู้จำเสียงพูดอัตโนมัติ | en_US |
dc.subject | Consonants | en_US |
dc.subject | Phonemics | en_US |
dc.subject | Phonetics, Acoustic | en_US |
dc.subject | Thai language -- Phonetics | en_US |
dc.subject | Automatic speech recognition | en_US |
dc.title | การแบ่งเสียงพูดเป็นเซกเมนต์สำหรับการรู้จำเสียงพูดภาษาไทยแบบอาศัยเซกเมนต์โดยใช้สารสนเทศสวนสัทศาสตร์ | en_US |
dc.title.alternative | Speech segmentation for Thai segment-based speech recognition using acoustic-phonetic information | en_US |
dc.type | Thesis | en_US |
dc.degree.name | วิศวกรรมศาสตรมหาบัณฑิต | en_US |
dc.degree.level | ปริญญาโท | en_US |
dc.degree.discipline | วิศวกรรมคอมพิวเตอร์ | en_US |
dc.degree.grantor | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.email.advisor | Atiwong.S@Chula.ac.th | - |
dc.email.advisor | proadpran.p@chula.ac.th | - |
dc.identifier.DOI | 10.14457/CU.the.2006.1416 | - |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
pairote_le_front.pdf | 1.12 MB | Adobe PDF | View/Open | |
pairote_le_ch1.pdf | 471.69 kB | Adobe PDF | View/Open | |
pairote_le_ch2.pdf | 4.61 MB | Adobe PDF | View/Open | |
pairote_le_ch3.pdf | 2.13 MB | Adobe PDF | View/Open | |
pairote_le_ch4.pdf | 2.31 MB | Adobe PDF | View/Open | |
pairote_le_ch5.pdf | 560.57 kB | Adobe PDF | View/Open | |
pairote_le_back.pdf | 1.95 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.