Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/56679
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorอติวงศ์ สุชาโต-
dc.contributor.advisorโปรดปราน บุณยพุกกณะ-
dc.contributor.authorไพโรจน์ ลีลาภัทรกิจ-
dc.contributor.otherจุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์-
dc.date.accessioned2018-01-03T07:17:00Z-
dc.date.available2018-01-03T07:17:00Z-
dc.date.issued2549-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/56679-
dc.descriptionวิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2549en_US
dc.description.abstractในระบบรู้จำเสียงพูดแบบอาศัยเซกเมนต์ จะต้องแบ่งเสียงพูดออกเป็นเซกเมนต์ โดยมีวัตถุประสงค์เพื่อค้นหาขอบเขตของหน่วยเสียงหรือตำแหน่งบอกเวลาเริ่มต้นและสิ้นสุดของหน่วยเสียง แล้วนำไปสร้างเป็นกราฟของเซกเมนต์ ซึ่งจะถูกใช้เป็นข้อมูลขาเข้าของขั้นตอนการู้จำเสียงพูด เพื่อค้นหาลำดับของหน่วยเสียงที่ดีทีสุดออกมา เป้าหมายของวิทยานิพนธ์นี้ ต้องการพัฒนาวิธีการแบ่งเสียงพูดเป็นเซกเมนต์ที่มีประสิทธิภาพและสามารถทำงานได้อย่างรวดเร็ว เพื่อนำไปใช้ในระบบรู้จำเสียงพูดแบบอาศัยเซกเมนต์ วิธีการแบ่งเสียงพูดเป็นเซกเมนต์แบบเดิมนั้นจะอาศัยเครื่องรู้จำเสียงพูดในระดับหน่วยเสียงมาค้นหาขอบเขตของหน่ยเสียง แต่เนื่องจากประสิทธิภาพนั้นยังห่างไกลกับประสิทธิภาพของวิธีการแบ่งเสียงพูดเป็นเซกเมนต์ด้วยคน อีกทั้งกราฟของเซกเมนต์ที่ได้มีขนาดใหญ่และใช้เวลาในการทำงานนาน จึงไม่เหมาะกับระบบรู้จำเสียงพูดที่ต้องการความรวดเร็ว วิทยานิพนธ์นี้จึงเสนอวิธีการแบ่งเสียงพูดเป็นเซกเมนต์ที่มีประสิทธิภาพดีกว่า โดยมีขั้นตอนการทำงานสองขั้นตอน คือ ขั้นตอนการหาขอบเขตของหน่วยเสียงจากตำแหน่งที่มีการเปลี่ยนแปลงลักษณะการออกเสียง โดยอาศัยลักษณะสำคัญของเสียงที่ได้จากการใช้สารสนเทศสวนสัทศาสตร์และอาศัยซัพพอร์ตเวกเตอร์แมชชีนมาจำแนกเสียงพูดตามลักษณะการออกเสียงขั้นตอนต่อมาจะสร้างกราฟของเซกเมนต์โดยใช้วิธีการสร้างกราฟของเซกเมนต์ โดยใช้วิธีการสร้างกราฟแบบหลายระดับ รวมถึงมีการคิดคะแนนให้กับขอบเขตของหน่วยเสียงที่หามาได้จากค่าการเปลี่ยนแปลงสเปกตรัม การทดลองทั้งหมดจะทดสอบโดยใช้ฐานข้อมูลเสียงพูดภาษาไทย โดยเมื่อยอมให้ขอบเขตของหน่วยเสียงที่หามาได้คลาดเคลื่อนไปจากขอบเขตของหน่วยเสียงอ้างอิงได้ไม่เกิน 20 มิลลิวินาที วิธีการแบ่งเสียงพูด เป็นเซกเมนต์นี้จะสามารถค้นหาขอบเขตของหน่วยเสียง ได้ความแม่นยำและความครอบคลุมเพิ่มขึ้น 8.3% (จาก 68.0% เป็น 76.3%) และ 5.1% (จาก 82.1% เป็น 87.2%) ตามลำดับ และสามารถลดขนาดกราฟของเซกเมนต์ได้ประมาณ 14 เท่าโดยที่ยังรักษาระดับความครอบคลุมไว้ได้ที่ 77.4% เมื่อเปรียบกับวิธีการแบ่งเสียงพูดเป็นเซกเมนต์แบบอาศัยเครื่องรู้จำเสียงพูดen_US
dc.description.abstractalternativeSegment-based speech recognition systems must explicitly hypothesize segment start and end times. The purpose of a segmentation algorithm is to hypothesize those times and to compose a graph of segments from them. During recognition, this graph is an input to a search that finds the optimal sequence of sound units through the graph. The goal of this thesis is to create a high-quality, real-time phonetic segmentation algorithm for segment-based speech recognition. The baseline algorithm makes use frame-based phonetic recognizer to hypothesize possible phonetic segments but its performance was still far from human's ability to perform such a task. This thesis addresses the quality and computational requirements by employing more efficient phonetic segmentation algorithm, and by shrinking the search space. The algorithm is done in two stages. Boundaries are detected in the first stage via manner-of-articulation changes by using acoustic features obtained from acoustic-phonetic information and applying multiple Support Vector Machines for the classification of manner features. Multi-Level segmentation is used to compose a graph from the boundary list for the graph size reduction. In addition, it includes a landmark scoring by utilizing the spectral transition measurement. Experiments reported were done on Thai continuous speech corpus. Allowing at most 20 ms. Deviation form the actual boundaries, the algorithm detects boundaries that have over 8.3% and 5.1% improvement in precision (from 68.0% to 76.3%) and recall rate (from 82.1% to 87.2%) and produces a segment-graph that has over 14 times fewer segments while still maintaining a 77.4% in recall rate over a baseline speech segmentation algorithm.en_US
dc.language.isothen_US
dc.publisherจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.relation.urihttp://doi.org/10.14457/CU.the.2006.1416-
dc.rightsจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.subjectพยัญชนะen_US
dc.subjectหน่วยเสียงen_US
dc.subjectภาษาไทย -- สระen_US
dc.subjectภาษาไทย -- สัทศาสตร์en_US
dc.subjectการรู้จำเสียงพูดอัตโนมัติen_US
dc.subjectConsonantsen_US
dc.subjectPhonemicsen_US
dc.subjectPhonetics, Acousticen_US
dc.subjectThai language -- Phoneticsen_US
dc.subjectAutomatic speech recognitionen_US
dc.titleการแบ่งเสียงพูดเป็นเซกเมนต์สำหรับการรู้จำเสียงพูดภาษาไทยแบบอาศัยเซกเมนต์โดยใช้สารสนเทศสวนสัทศาสตร์en_US
dc.title.alternativeSpeech segmentation for Thai segment-based speech recognition using acoustic-phonetic informationen_US
dc.typeThesisen_US
dc.degree.nameวิศวกรรมศาสตรมหาบัณฑิตen_US
dc.degree.levelปริญญาโทen_US
dc.degree.disciplineวิศวกรรมคอมพิวเตอร์en_US
dc.degree.grantorจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.email.advisorAtiwong.S@Chula.ac.th-
dc.email.advisorproadpran.p@chula.ac.th-
dc.identifier.DOI10.14457/CU.the.2006.1416-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
pairote_le_front.pdf1.12 MBAdobe PDFView/Open
pairote_le_ch1.pdf471.69 kBAdobe PDFView/Open
pairote_le_ch2.pdf4.61 MBAdobe PDFView/Open
pairote_le_ch3.pdf2.13 MBAdobe PDFView/Open
pairote_le_ch4.pdf2.31 MBAdobe PDFView/Open
pairote_le_ch5.pdf560.57 kBAdobe PDFView/Open
pairote_le_back.pdf1.95 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.