Abstract:
งานวิจัยนนี้มีวัตถุประสงค์ในการศึกษาและเลือกกรรมวิธีที่มีประสิทธิภาพสูงสุดในการรู้จำเสียงพูดตัวเลขไทย ระหว่างกรรมวิธีไดนามิก ไทม์วาร์ปิง (DTW) กรรมวิธีแบบจำลองฮิดเดน มาร์คอฟ (HMM) และกรรมวิธีนิวรอลเน็ตเวิร์ก (NN) ทั้งสามกรรมวิธีประกอบด้วยกระบวนการ 4 ขั้นตอน คือ การประมวลเบื้องต้น การวัดหาค่าลักษณะสำคัญ การจำแนกรูปแบบ และการตัดสินใจ ในการประมวลเบื้องต้น กรรมวิธีย่อยในการหาจุดสิ้นสุดเสียงพูดเป็นเรื่องหลักที่ได้รับการพิจารณาทั้งนี้รายละเอียดของกรรมวิธีย่อยนี้จะแตกต่างกันไปในแต่ละกรรมวิธีหลักเบื้องต้น แต่ทั้งหมดใช้หลักการพิจารณาระดับพลังงานของสัญญาณ ในการวัดหาค่าลักษณะสำคัญ DTWใช้ผลการแปลงฮาร์ตเลย์คำนวณหาค่าพารามิเตอร์ ในขณะที่ HMM ใช้การหาค่าสัมประสิทธิ์การประมาณพันธะเชิงเส้น ลำดับ 10 ร่วมกับการควอนไตซ์เวกตอร์ของรหัสขนาด 64 เพื่อคำนวณค่าพารามิเตอร์ สำหรับ NN ใช้การหาค่าสัมประสิทธิ์การประมาณพันธ์เชิงเส้น ลำดับ 10 เท่านั้นในการกำหนดค่าพารามิเตอร์ ในขั้นตอนของการจำแนกรูปแบบ DTW ใช้วิธีกาไดนามิก ไทม์วาร์ปิง เพื่อกำหนดรูปแบบส่วน HMM ใช้แบบจำลองฮิดเดน มาร์คอฟ จำนวน 3 สถานะ เพื่อคำนวณหารูปแบบ โดยที่ NN ใช้อัลกอริทึมแบบแบคพรอพาเกชันเพื่อหารูปแบบที่เหมาะสม ในขั้นตอนการตัดสินใจ DTW ใช้เงื่อนไจ Nearest Neighbor กับค่าความคลาดเคลื่อนที่ได้จากการเปรียบเทียบรูปแบบทดสอบกับรูปแบบอ้างอิง ในขณะที่ HMM ใช้อัลกอริทึม Viterbi ในการตัดสินใจซึ่งเป็นกระบวนการที่ซับซ้อนที่สุด และ NN ใช้กรรมวิธีที่ธรรมดาที่สุด กล่าวคือ ใช้เงื่อนไขความคลาดเคลื่อนต่ำสุดในการเปรียบเทียบ ในการทดสอบและเปรียบเทียบการทำงานของระบบการรู้จำ มีการจัดเตรียมข้อสนเทศ 3 ชุด ชุดแรกเป็นชุดฝึกฝน ชุดที่ 2 และ 3 เป็นชุดทดสอบ 1 และ 2 ตามลำดับ แต่ละชุดเป็นข้อมูลเสียงที่บันทึกจากผู้พูดทั้งเพศหญิงและชายที่มีอายุอยู่ในช่วง 18 ถึง 25 ปี ข้อสนเทศชุดฝึกฝนและชุดทดสอบ 1 เป็นข้อมูลที่บันทึกจากผู้พูดกลุ่มเดียวกัน แต่บันทึกข้อมูลไว้คนละชุด ส่วนข้อสนเทศชุดทดสอบ 2 เป็นข้อมูลที่บันทึกจากผู้พูดต่างกลุ่มออกไป จำนวนตัวอย่างในแต่ละกลุ่มเรียงตามลำดับ คือ 20, 22 และ 20 และ 20 สำหรับ DTW 45, 45 และ 10 สำหรับ HMM และ 30, 30 และ 12 สำหรับ NN อัตราการรู้จำเฉลี่ยของแต่ละกลุ่มที่ได้เรียงลำดับคือ ร้อยละ 90.50, 86.50, และ 79.25 สำหรับ DTW ที่ใช้รูปแบบอ้างอิงของ 20 ตัวอย่าง ร้อยละ 95.30, 89.70 และ 84.00 สำหรับ HMM ที่ใช้รูปแบบอ้างอิงของ 45 ตัวอย่าง และร้อยละ 98.20, 84.30 และ 89.40 สำหรับ NN ที่ใช้รูปแบบอ้างอิงของ 30 ตัวอย่าง