Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/65139
Title: Knowing when not to answer: positional peptide sequencing with encoder-decoder networks
Other Titles: การถอดรหัสเปปไทด์ตามตำแหน่งด้วยเครือข่ายตัวเข้ารหัสและตัวถอดรหัสโดยรู้ว่าเมื่อใดไม่ควรตอบ
Authors: Korrawe Karunratanakul
Advisors: Ekapol Chuangsuwanich
Sira Sriswasdi
Other author: Chulalongkorn University. Faculty of Engineering
Advisor's Email: Ekapol.C@Chula.ac.th
Sira.Sr@Chula.ac.th
Issue Date: 2018
Publisher: Chulalongkorn University
Abstract: การถอดรหัสเปปไทด์นั้นเป็นองค์ประกอบสำคัญสำหรับการศึกษาโปรตีน โดยทั่วไปแล้วการวิเคราะห์ข้อมูล mass spectrum นั้นจะศึกษาเพียงสายของกรดอะมิโนที่ปรากฏอยู่ในฐานข้อมูลเท่านั้น ทำให้การค้นหาสายเปปไทด์แบบใหม่ที่อาจเกิดจากการกลายพันธุ์นั้นทำได้ยาก วิถีการถอดรหัสด้วยดีโนโวแก้ไขข้อจำกัดนี้ด้วยการถอดรหัสสายเปปไทด์โดยตรงจากข้อมูล mass spectrum โดยใช้ความรู้เกี่ยวกับกระบวนการแตกตัวของไอออน ทำให้ไม่จำเป็นต้องใช้ฐานข้อมูลโปรตีนช่วย อย่างไรก็ดี วิธีดังกล่าวยังมีข้อจำกัดด้านความแม่นยำและต้องการการตรวจทานโดยผู้เชี่ยวชาญ วิทยานิพนธ์ฉบับนี้นำเสนอวิธีการถอดรหัสเปปไทด์ด้วยวิธีการดีโนโวแบบใหม่ชื่อ SMSNet โดยใช้โมเดล deep learning เข้าช่วย โดยยังสามารถทำนายกรดอะมิโนได้อย่างครอบคลุมในระดับความแม่นยำของกรดอะมิโนที่ 95% งานฉบับนี้เสนอขั้นตอน ถอดรหัส ตัดออก และสืบค้น เพื่อตัดผลทำนายในตำแหน่งที่มีความกำกวมออกและใช้ข้อมูลจากฐานข้อมูลโปรตีนช่วยเพื่อให้ทำนายสายเปปไทด์ได้ถูกต้องทั้งเส้น นอกจากนี้ งานนี้ได้นำเสนอการใช้ rescorer ในการแก้ไขคะแนนความมั่นใจสำหรับผลทำนายในแต่ละตำแหน่ง ซึ่งส่งผลให้สามารถแยกกลุ่มคะแนนความมั่นใจสำหรับคำตอบที่ถูกต้องและคำตอบที่ผิดได้ดียิ่งขึ้น เมื่อประกอบทุกขั้นตอนวิธีในงานวิจัยฉบับนี้เข้าด้วยกันพบว่า SMSNet สามารถทำนายสายเปปไทด์ได้ในประสิทธิภาพที่ใกล้เคียงกับการทำนายด้วยฐานข้อมูลในการทดลองจริง
Other Abstract: Peptide sequencing is an important component for understanding the characterization of proteins. Typical analyses of mass spectrometry data only identify amino acid sequences that exist in reference databases. This restricts the possibility of discovering new peptides such as those that contain uncharacterized mutations or originate from unexpected proteins. De novo peptide sequencing approaches address this limitation by directly deriving peptides from MS/MS spectra using the knowledge of the ion fragmentation process but often suffer from low accuracy and require extensive validation by experts. In this thesis, we develop SMSNet, a deep learning-based hybrid de novo peptide sequencing model that achieves >95% amino acid accuracy while retaining good identification coverage. We propose a sequence-mask-search framework which allows the model to recover full-sequence peptide predictions from known database in case the predictions contain ambiguous amino acid positions. Additionally, because the confidence scores of each amino acid are often affected by the predictions in the previous positions, we propose the use of external rescorer for adjusting the scores, which leads to better separation between correct and incorrect amino acids. Using techniques described and proposed in this thesis, we are able to recover a large number of peptides which are in accordance with predictions using database searching techniques, suggesting the potential of SMSNet on other real-life proteomics studies.
Description: Thesis (M.Eng.)--Chulalongkorn University, 2018
Degree Name: Master of Engineering
Degree Level: Master's Degree
Degree Discipline: Computer Engineering
URI: http://cuir.car.chula.ac.th/handle/123456789/65139
URI: http://doi.org/10.58837/CHULA.THE.2018.151
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2018.151
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
6170109021.pdf998.46 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.