DSpace Repository

A deep learning model for predicting long non-coding RNA and messenger RNA with model interpretation

Show simple item record

dc.contributor.advisor Duangdao Wichadakul
dc.contributor.author Rattaphon Lin
dc.contributor.other Chulalongkorn University. Faculty of Engineering
dc.date.accessioned 2022-07-23T05:18:01Z
dc.date.available 2022-07-23T05:18:01Z
dc.date.issued 2021
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/80129
dc.description Thesis (M.Sc.)--Chulalongkorn University, 2021
dc.description.abstract Long non-coding RNAs (lncRNAs) play important roles in many biological processes and are found to be associated with several diseases. The development of next-generation sequencing technologies has discovered numerous unannotated transcripts. However, classifying these unannotated transcripts by using biological experiments is very time-consuming and expensive. Thus, a computational approach is considered as an alternative solution which is faster and cheaper. Many existing lncRNA identification tools are available, these tools lack an explanation of which features contributed to their prediction results. Here, we present Xlnc1DCNN, a tool for distinguishing long non-coding RNAs (lncRNAs) from protein-coding transcripts (PCTs) together with a prediction explanation. We developed the model by using a one-dimensional convolutional neural network integrated with DeepSHAP. On the human test dataset, we showed that Xlnc1DCNN outperformed other lncRNA identification tools in terms of accuracy and F1-score and had a generalization to other species.  We also explained the prediction result to understand further how the model makes predictions. The explanation results revealed that most of the lncRNA transcripts were identified without any conserved regions, short patterns with unknown functions, or only regions of transmembrane helices while protein-coding transcripts were mostly identified with protein domains or families. Some of the incorrect predictions of the model also found inconsistent annotations among the public databases with lncRNA transcripts containing protein domains, protein families, or intrinsically disordered regions (IDRs). Xlnc1DCNN is freely available at https://github.com/cucpbioinfo/Xlnc1DCNN.  
dc.description.abstractalternative อาร์เอ็นเอสายยาวที่ไม่ถูกแปลรหัส (long non-coding RNA: lncRNA) มีบทบาทสำคัญในกระบวนการทางชีววิทยาและยังพบว่ามีส่วนเกี่ยวข้องกับการเกิดโรคต่าง ๆ จากการพัฒนาเทคโนโลยีการค้นหาลำดับเบสในปัจจุบันนำไปสู่การค้นพบสายอาร์เอ็นเอที่ยังไม่ถูกระบุประเภทเป็นจำนวนมาก การจำแนกสายอาร์เอ็นเอเหล่านี้ด้วยการทดลองทางชีววิทยามีค่าใช้จ่ายสูงและใช้เวลานาน ดังนั้นการจำแนกด้วยเครื่องมือหรือซอฟต์แวร์จากการคำนวณจึงเป็นอีกทางเลือกที่ประหยัดและรวดเร็ว เครื่องมือทางคอมพิวเตอร์ที่ใช้ในการจำแนกอาร์เอ็นเอสายยาวที่ไม่ถูกแปลรหัสมีจำนวนมากถึงอย่างไรก็ตามเครื่องมือเหล่านี้ไม่มีการอธิบายคุณลักษณะสำคัญที่ใช้ในการจำแนก ดังนั้นงานวิจัยนี้นำเสนอเครื่องมือใหม่ชื่อ  Xlnc1DCNN ที่สามารถจำแนกอาร์เอ็นเอสายยาวที่ไม่ถูกแปลรหัสและอาร์เอ็นเอนำรหัสพร้อมทั้งอธิบายผลลัพธ์จากการทำนาย แบบจำลองนี้ถูกพัฒนาด้วยแบบจำลองโครงข่ายประสาทเทียมแบบคอนโวลูชันหนึ่งมิติ และใช้ DeepSHAP ในการอธิบายคุณลักษณะที่ใช้ในการจำแนก จากผลการประเมินแบบจำลองด้วยข้อมูลสายอาร์เอ็นเอมนุษย์ชุดทดสอบพบว่า Xlnc1DCNN มีประสิทธิภาพที่เหนือกว่าเครื่องมืออื่น ๆ ด้วยตัวชี้วัดความแม่นยำ (accuracy) และ F1-score อีกทั้งยังมีความเป็นนัยทั่วไป (generalization) สำหรับสปีชีส์อื่น ๆ ผลลัพธ์จากการอธิบายแบบจำลองพบว่าการจำแนกอาร์เอ็นเอสายยาวที่ไม่ถูกแปลรหัส พบรูปแบบที่ไม่อนุรักษ์ พบรูปแบบนิวคลีโอไทด์สายสั้นที่ไม่ทราบฟังก์ชัน หรือเป็นบริเวณที่พบเฉพาะทรานส์เมมเบรนฮีลิกซ์ ในขณะที่ส่วนอาร์เอ็นเอนำรหัสบริเวณที่สำคัญจะพบโปรตีนโดเมนหรือวงศ์โปรตีน อีกทั้งผลลัพธ์ที่แบบจำลองทายผิดพบบรรณนิทัศน์ที่ขัดแย้งระหว่างฐานข้อมูลสาธารณะ โดยพบโปรตีนโดเมนหรือวงศ์โปรตีนในอาร์เอ็นเอสายยาวที่ไม่ถูกแปลรหัสหรือพบบริเวณที่มีความผิดปกติของสายโปรตีน เครื่องมือนี้เปิดให้ใช้งานแบบสาธารณะที่ https://github.com/cucpbioinfo/Xlnc1DCNN
dc.language.iso en
dc.publisher Chulalongkorn University
dc.relation.uri http://doi.org/10.58837/CHULA.THE.2021.107
dc.rights Chulalongkorn University
dc.subject.classification Computer Science
dc.title A deep learning model for predicting long non-coding RNA and messenger RNA with model interpretation
dc.title.alternative แบบจำลองการเรียนรู้เชิงลึกสำหรับการทำนายอาร์เอ็นเอสายยาวที่ไม่ถูกแปลรหัสและอาร์เอ็นเอนำรหัสพร้อมการตีความแบบจำลอง
dc.type Thesis
dc.degree.name Master of Science
dc.degree.level Master’s Degree
dc.degree.discipline Computer Science
dc.degree.grantor Chulalongkorn University
dc.identifier.DOI 10.58837/CHULA.THE.2021.107


Files in this item

This item appears in the following Collection(s)

Show simple item record