Abstract:
วิทยานิพนธ์ฉบับนี้เสนอแนวทางการรู้จำและการบ่งตัวตนของเสียงสภาพแวดล้อมและเสียงปืน-ปืนใหญ่ โดยเสนอแบบจำลอง Support Vector Machine (SVM) Multi-Layer Perceptron (MLP) และ Deep Neural Networks (DNNs) อีกสองชนิด ได้แก่ Convolutional Neural Networks (CNNs) และ Recurrent Neural Networks (RNNs) วัตถุประสงค์หลักเพื่อศึกษาการรู้จำเสียงสภาพแวดล้อมและเสียงปืน-ปืนใหญ่ และขยายขอบเขตให้สามารถจำแนกระหว่างเสียงที่ไม่เป็นอันตรายและเสียงที่เป็นอันตราย ปัญหาหลักของการจำแนกเสียงเกิดจากสัญญาณเสียงมีคุณลักษณะที่ไม่คงที่ (Non-Stationary) และข้อมูลมีขนาดมิติทางเวลาสูง ด้วยเหตุนี้วิทยานิพนธ์นี้จึงเสนอแนวทางการแก้ปัญหาด้วยการประมวลผลก่อนหน้าด้วยผลการแปลงฟูเรียร์สั้น (Short-Time Fourier Transform, STFT) แล้วทำการสกัดคุณลักษณะด้วยการวิเคราะห์องค์ประกอบหลัก (Principal Components Analysis, PCA) และทำการจำแนกด้วย SVM และ MLP นอกจากนี้ด้วยสมมติฐาน เบื้องต้นที่ว่า STFT สามารถแปลงจากสัญญาณเสียงที่มีมิติขนาดหนึ่งมิติมาเป็นสัญญาณภาพ (image) ที่มีขนาดสองมิติได้ ทำให้เราสามารถนำ spectrogram ที่ได้จาก STFT มาประยุกต์ใช้กับการเรียนรู้ลึกชนิด CNN หรือ RNN ได้ในกรณีนี้ CNN และ RNN จะทำหน้าที่สกัดคุณลักษณะ และจำแนกไปพร้อมกับในระหว่างการเรียนรู้ ผลการทดลองวิทยานิพนธ์สรุปได้ว่าเครื่องมือที่สามารถทำนายเสียงสภาพแวดล้อมและเสียงปืน-ปืนใหญ่ ได้แม่นยำสุดคือ DNN ชนิด CNN