Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/80811
Title: Multi-Modal Biometric-based Human Identification Using Deep Convolutional Siamese Neural Network
Other Titles: การระบุตัวบุคคลด้วยชีวมาตรหลายโหมดโดยใช้โครงข่ายประสาทสยามแบบคอนโวลูชันเชิงลึก
Authors: Hsu Mon Lei Aung
Advisors: Charnchai Pluempitiwiriyawej
Kazuhiko Hamamoto
Other author: Chulalongkorn University. Faculty of Engineering
Issue Date: 2021
Publisher: Chulalongkorn University
Abstract: Biometric recognition is a critical task in security control systems. Although face biometric has long been granted the most accepted and practical biometric for human recognition, it can be easily stolen and imitated. It also has challenges getting reliable facial information from the low-resolution camera. In contrast, a gait physical biometric has been recently used for recognition. It can be more complicated to replicate and can also be taken from reliable information from the poor-quality camera. However, human body recognition has remained a problem since the lack of full-body detail within a short distance. Moreover, the unimodal biometric system still has constraints with the intrinsic factors of each trait. Recently, a deep Convolutional Neural Network (deepCNN) has been firmly applied to many fields in recognition research. Nevertheless, it needs a lot of labelled data for training. Biometrics data acquisition and labelling for creating large-scale datasets are still problematic. In this thesis, we propose a multimodal approach by combining two biometrics using a deep Convolutional Neural Network with a distance learning based Siamese Neural Network for human recognition. The proposed network model learns discriminative spatio-temporal features from gait and facial features. The extracted features from the two biometrics are fused into a common feature space at the feature level and sensor level methods for multimodal recognition. This study conducted experiments on the publicly available CASIA-B gait dataset, Yale-B faces dataset and a walking videos dataset of 25 users. The proposed model achieves a 97.3 % classification accuracy with an 0.97 F1 score and a 0.004 Equal Error Rate (EER). The proposed SNN model also achieves a 90.4% True Positive Rate (TPR) on gait and 89.7 % TPR on face modality, and 98.4% TPR on the multimodal system. The experimental results demonstrate that the system can classify people by learned features on Gait energy (GE)  and Low-resolution (LR) face images directly. The proposed multimodal recognition performance evaluation is compatible in comparison to other multimodal recognition methods.
Other Abstract: การรู้จำแบบไบโอเมตริกซ์เป็นงานที่สำคัญในระบบรักษาความปลอดภัย แม้ว่าไบโอเมตริกซ์ใบหน้าจะได้รับการยอมรับอย่างมากและเป็นประโยชน์มากสำหรับการรู้จำมนุษย์ แต่อาจถูกขโมยและเลียนแบบได้ง่าย นอกจากนี้ยังมีความท้าทายในการรับข้อมูลใบหน้าที่เชื่อถือได้จากกล้องความละเอียดต่ำ ในทางตรงกันข้าม เมื่อเร็ว ๆ นี้มีการใช้ไบโอเมตริกซ์ท่าเดินเพื่อการรู้จำ ซึ่งเชื่อถือได้มากกว่าจากภาพในกล้องความละเอียดต่ำ อย่างไรก็ตาม การรู้จำมนุษย์ยังคงเป็นปัญหาเนื่องจากขาดรายละเอียดทั้งตัวในระยะทางสั้น ๆ นอกจากนี้ ระบบไบโอเมตริกซ์แบบเดียวยังคงมีข้อจำกัดกับปัจจัยภายในของแต่ละคุณลักษณะ เมื่อเร็ว ๆ นี้ โครงข่ายประสาทเทียมคอนโวลูชันเชิงลึก ( deep Convolutional Neural Network หรือ deepCNN)ได้ถูกนำมาใช้อย่างแพร่หลายในหลายสาขาเพื่อรู้จำอย่างไรก็ตาม ข้อมูลที่ใช้ฝึกฝนจำนวนมากจำป็นต้องติดฉลากกำกับก่อน การได้มาซึ่งข้อมูลไบโอเมตริกซ์และการติดฉลากสำหรับการสร้างชุดข้อมูลขนาดใหญ่ยังคงเป็นปัญหาอยู่ ในวิทยานิพนธ์นี้ เราขอเสนอแนวทางการรวมไบโอเมตริกซ์สองชุดเข้าด้วยกันโดยใช้โครงข่ายประสาทเทียมเชิงลึกกับโครงข่ายประสาทเทียมสยาม(Siamese Neural Network)สำหรับการเรียนรู้การรู้จำมนุษย์ โมเดลเครือข่ายที่เสนอจะเรียนรู้คุณลักษณะทั้งในปริภูมิภาพและปริภูมิเวลา ที่เลือกคุณลักษณะจากท่าทางการเดินและคุณลักษณะเด่นจากภาพใบหน้า คุณลักษณะไบโอเมตริกซ์ทั้งสองที่สกัดได้ถูกรวมเข้ากันเป็นเป็นกระบวนการในระดับเซนเซอร์สำหรับการรู้จำหลายรูปแบบ การศึกษานี้ทำการทดลองกับชุดข้อมูลท่าทางการเดินของฐานข้อมูล CASIA-B ที่เปิดเผยต่อสาธารณะ ชุดข้อมูลใบหน้าของ Yale-B และชุดข้อมูลวิดีโอท่าทางการเดินของผู้ใช้ 25 ราย โมเดลที่เสนอมีความแม่นยำในการจำแนกประเภท 97.3 % ด้วยคะแนน 0.97 F1 และ อัตราความผิดพลาด(ERR) 0.004 โมเดล SNN ที่เสนอยังมี True Positive Rate (TPR) อยู่ที่ 90.4% สำหรับท่าทางการเดินและ 89.7% TPR สำหรับใบหน้าและ 98.4% TPR ใเมื่อใช้ทั้งสองรูปแบบผลการทดลองแสดงให้เห็นว่าระบบสามารถจำแนกบุคคลโดยคุณลักษณะที่เรียนรู้เกี่ยวกับภาพใบหน้าGait energy (GE) และLow-resolution (LR) ได้โดยตรงการประเมินประสิทธิภาพการรู้จำหลายรูปแบบที่เสนอมานั้นยังเข้ากันได้เมื่อเปรียบเทียบกับวิธีการรู้จำหลายรูปแบบอื่นๆ
Description: Thesis (Ph.D.)--Chulalongkorn University, 2021
Degree Name: Doctor of Philosophy
Degree Level: Doctoral Degree
Degree Discipline: Electrical Engineering
URI: http://cuir.car.chula.ac.th/handle/123456789/80811
URI: http://doi.org/10.58837/CHULA.THE.2021.129
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2021.129
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
6171408921.pdf2.63 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.