การค้นคืนข้อมูลจากแฟ้มข้อมูลเสียงภาษาไทยด้วยข้อคำถามเสียง

ภูเบศ โต๊ะลง

Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/12391

Title:	การค้นคืนข้อมูลจากแฟ้มข้อมูลเสียงภาษาไทยด้วยข้อคำถามเสียง
Other Titles:	Thai speech audio retrieval using voice query
Authors:	ภูเบศ โต๊ะลง
Advisors:	โชติรัตน์ รัตนามหัทธนะ
Other author:	จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email:	Chotirat.R@Chula.ac.th
Subjects:	การรู้จำเสียงพูดอัตโนมัติ ระบบประมวลผลเสียงพูด ระบบมัลติมีเดีย ระบบการจัดเก็บและค้นข้อสนเทศ
Issue Date:	2549
Publisher:	จุฬาลงกรณ์มหาวิทยาลัย
Abstract:	ปัจจุบันข้อมูลสื่อประสมได้เพิ่มปริมาณขึ้นอย่างรวดเร็วและมีหลายรูปแบบ ทั้งที่อยู่ในรูปแฟ้มข้อมูลเสียง แฟ้มข้อมูลวีดิทัศน์ และแฟ้มข้อมูลภาพ ซึ่งแฟ้มข้อมูลสื่อประสมแต่ละแบบมีวิธีการค้นคืนหลากหลายวิธี งานวิจัยนี้สนใจและเลือกที่จะศึกษาวิธีการที่จะค้นคืนข้อมูลภายในแฟ้มข้อมูลเสียงภาษาไทยขนาดใหญ่ เช่น แฟ้มข้อมูลเสียงสื่อการเรียนการสอนอิเล็กทรอนิกส์ แฟ้มข้อมูลเสียงการอ่านหนังสือ เป็นต้น ปัจจุบันวิธีที่ได้รับความนิยมในการค้นคืนข้อมูลภายในแฟ้มข้อมูลเสียงมักใช้วิธีการสืบค้นด้วยคำหลัก ชื่อเรื่องหรือชื่อผู้แต่ง ซึ่งวิธีการดังกล่าวเป็นการค้นคืนด้วยการพิมพ์ หรือแม้แต่การพูดข้อคำถามเสียงเข้าไปเพื่อค้นหาจากรายการที่มีอยู่ โดยใช้กระบวนการรู้จำคำพูดในการค้นคืนข้อมูลเสียง แต่การใช้กระบวนการรู้จำคำพูดมีข้อจำกัดในเรื่องของเวลาที่ใช้ในการค้นคืน ซึ่งใช้เวลานานในกรณีที่แฟ้มฐานข้อมูลเสียงมีขนาดใหญ่ ดังนั้นงานวิจัยนี้จึงมุ่งเน้นในการค้นคืนข้อมูลเสียงจากแฟ้มข้อมูลเสียงภาษาไทยขนาดใหญ่ ซึ่งเวลาที่ใช้ในการทำงานเป็นเวลาที่ผู้ใช้ยอมรับได้ โดยมีความแม่นยำอยู่ในระดับดี และเนื่องจากภาษาไทยมีการผันวรรณยุกต์ 5 ระดับเสียงต่างกัน คือ สามัญ เอก โท ตรี และจัตวา ผู้เขียนจึงได้เลือกใช้เสียงวรรณยุกต์ในภาษาไทยนี้เข้ามาช่วยในการแยกคำ ซึ่งวรรณยุกต์ในแต่ละพยางค์ของคำก็จะให้ค่าความถี่มูลฐานต่างกัน และสามารถนำเอาคุณลักษณะพิเศษของเสียงในภาษาไทยนี้ มาใช้ในการค้นหาคำจากข้อคำถามเสียง โดยใช้วิธีวัดระยะทางแบบไดนามิกไทม์วอร์ปปิง เพื่อช่วยเพิ่มความแม่นยำในการเปรียบเทียบ สัญญานเสียงจากข้อคำถามกับเสียงในแฟ้มฐานข้อมูล จากการทดลองพบว่า วิธีดังกล่าวสามารถค้นคืนข้อมูลเสียงได้ถูกต้องคิดเป็น 59%
Other Abstract:	Multimedia has increasingly become a prevalent resource in various formats including audio, video, and image archives. Among the varieties of retrieval, this thesis focuses on retrieval of speech audio collections, which include electronic lectures and audio books. Currently, most of audio retrieval systems are based on typed keyword/title/author search or based on voice queries where a speech recognition technique is generally used. However, the main limitation of the speech recognition technique is its slow retrieval time if the audio files are large. Therefore, this research focuses on finding an alternative to speech audio retrieval within the large files with satisfactory retrieval time and accuracy. This work uses Thai tones to help spotting the words because Thai language has 5 different tones, i.e., Low, Middle, High, Falling, and Rising. By exploiting this special property, Fundamental Frequency and Dynamic Time Warping techniques are used to improve performance and to speed up retrieval time. The preliminary experiment result gives a retrieval accuracy of 59%.
Description:	วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2549
Degree Name:	วิทยาศาสตรมหาบัณฑิต
Degree Level:	ปริญญาโท
Degree Discipline:	วิทยาศาสตร์คอมพิวเตอร์
URI:	http://cuir.car.chula.ac.th/handle/123456789/12391
URI:	http://doi.org/10.14457/CU.the.2006.1846
metadata.dc.identifier.DOI:	10.14457/CU.the.2006.1846
Type:	Thesis
Appears in Collections:	Eng - Theses

Files in This Item:

File	Description	Size	Format
Phubes.pdf		2.29 MB	Adobe PDF	View/Open

Show full item record