Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/22374
Title: Neural prediction of protein-protein interactions based on physicochemical correlation coefficients and bootstrapping for artificial data generation
Other Titles: การทำนายโดยโครงข่ายประสาทเทียมของอันตรกิริยาระหว่างคู่โปรตีนบนพื้นฐานของสัมประสิทธิ์สหสัมพันธ์เชิงเคมีกายภาพ และการบูตสแทรปสำหรับการสร้างข้อมูลเทียม
Authors: Putthiporn Thanathamathee
Advisors: Chidchanok Lursinsap
Other author: Chulalongkorn University. Faculty of Science
Advisor's Email: Chidchanok.L@Chula.ac.th
Subjects: Neural networks (Computer science)
Bootstrap (Statistics)
Principal components analysis
Protein-protein interactions
นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์)
บูทสแตร็ป (สถิติ)
การวิเคราะห์ตัวประกอบสำคัญ
ปฏิสัมพันธ์ระหว่างโปรตีน
Issue Date: 2011
Publisher: Chulalongkorn University
Abstract: Although using only protein sequences might be sufficient for predicting, there are major problems in the prediction of protein-protein interactions by classifying technique such as supervised neural network. The first one is extracting the feature of protein pair sequences to form a feature sequence. The second problem is conserving the information when equalizing the lengths of feature sequences before classifying into interacting and non-interacting classes. This dissertation proposed a method to predict protein-protein interactions from amino acid sequences using only artificial boundary data generation and boosting procedures to improve the prediction accuracies. The feature extraction is based on the correlation coefficients of physicochemical properties, the statistical means and standard deviations of secondary structures and protein properties. The important data which lie into the boundary of each subcluster were only used to generate the artificial boundary data by bootstrap resampling technique. Finally, the only artificial boundary data of both positive and negative protein pairs were predicted by boosting method based on neural network classifier. The empirical study has shown that our proposed method yielded better prediction accuracy than the sequence-based methods when performed on Yeast Saccharomyces Cerevisiae data set. Moreover, the number of feature and the number of training data were less than others. The prediction models were also evaluated by cross-species test data sets. The result showed that the proposed method also capable to predict with the good performance on cross-species data.
Other Abstract: แม้ว่าการใช้เฉพาะสายลำดับโปรตีน อาจจะมีเพียงพอสำหรับการทำนายอันตรกิริยาคู่โปรตีนโดยใช้โครงข่ายประสาทเทียม แต่มีปัญหาที่ต้องพิจารณาคือ การสกัดคุณลักษณะของคู่โปรตีนให้อยู่ในรูปของตัวมูลตัวเลข ปัญหาถัดมาคือ ต้องสงวนรักษาคุณสมบัติของคู่โปรตีนนั้น หลังจากที่ทำให้เป็นเว็กเตอร์ตัวเลขที่มีขนาดเท่ากันในแต่ละคู่โปรตีน วิทยานิพนธ์นี้จึงได้นำเสนอวิธีการทำนายอันตรกิริยาระหว่างคู่โปรตีนจากสายลำดับโปรตีน ที่ใช้เฉพาะขอบข้อมูลเทียมที่ได้สร้างขึ้นจากข้อมูลคู่โปรตีน รวมทั้งหลักการบูตส่งเสริมเพื่อเพิ่มประสิทธิภาพในการทำนายของโครงข่ายประสาทเทียม โดยการสกัดคุณลักษณะของคู่โปรตีนบนพื้นฐานสัมประสิทธิ์สหสัมพันธ์เชิงเคมีกายภาพ ค่าทางสถิติของโครงสร้างทุติยภูมิ และคุณสมบัติที่สำคัญของโปรตีน หลังจากนั้นจะได้คุณลักษณะของคู่โปรตีนที่อยู่ในรูปของข้อมูลเว็กเตอร์ตัวเลขที่มีขนาดเท่ากัน ซึ่งข้อมูลตัวเลขเหล่านี้จะถูกนำมาหาขอบข้อมูล และนำเฉพาะขอบนี้ไปสร้างข้อมูลขอบเทียมโดยใช้หลักการบูตสแทรป และขั้นตอนสุดท้าย ข้อมูลขอบเทียมเท่านั้นจะถูกนำไปใช้ทำนายการเกิดอันตรกิริยาคู่โปรตีน โดยใช้หลักการบูตส่งเสริมโครงข่ายประสาทเทียม ผลการทดลองกับข้อมูลยีสต์ ปรากฏว่าวิธีการที่ได้นำเสนอนั้น สามารถทำนายได้ถูกต้องมากกว่าวิธีการอื่นที่นำมาเปรียบเทียบ มากไปกว่านั้นวิธีที่นำเสนอได้ใช้เฉพาะข้อมูลขอบเทียมมาเป็นข้อมูลการสอน ซึ่งจำนวนข้อมูลสอนจะน้อยกว่าวิธีอื่นด้วย นอกจากนี้ยังประเมินประสิทธิภาพการทำนายด้วยข้อมูลทดสอบโปรตีนข้ามสายพันธุ์ ผลแสดงให้เห็นว่าวิธีการที่นำเสนอนั้นมีประสิทธิภาพการทำนายดีกว่าวิธีการอื่นที่นำมาเปรียบเทียบ
Description: Thesis (Ph.D.)--Chulalongkorn University, 2011
Degree Name: Doctor of Philosophy
Degree Level: Doctoral Degree
Degree Discipline: Computer Science
URI: http://cuir.car.chula.ac.th/handle/123456789/22374
URI: http://doi.org/10.14457/CU.the.2011.1645
metadata.dc.identifier.DOI: 10.14457/CU.the.2011.1645
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
putthiporn_th.pdf1.07 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.