Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/22374
Title: | Neural prediction of protein-protein interactions based on physicochemical correlation coefficients and bootstrapping for artificial data generation |
Other Titles: | การทำนายโดยโครงข่ายประสาทเทียมของอันตรกิริยาระหว่างคู่โปรตีนบนพื้นฐานของสัมประสิทธิ์สหสัมพันธ์เชิงเคมีกายภาพ และการบูตสแทรปสำหรับการสร้างข้อมูลเทียม |
Authors: | Putthiporn Thanathamathee |
Advisors: | Chidchanok Lursinsap |
Other author: | Chulalongkorn University. Faculty of Science |
Advisor's Email: | Chidchanok.L@Chula.ac.th |
Subjects: | Neural networks (Computer science) Bootstrap (Statistics) Principal components analysis Protein-protein interactions นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์) บูทสแตร็ป (สถิติ) การวิเคราะห์ตัวประกอบสำคัญ ปฏิสัมพันธ์ระหว่างโปรตีน |
Issue Date: | 2011 |
Publisher: | Chulalongkorn University |
Abstract: | Although using only protein sequences might be sufficient for predicting, there are major problems in the prediction of protein-protein interactions by classifying technique such as supervised neural network. The first one is extracting the feature of protein pair sequences to form a feature sequence. The second problem is conserving the information when equalizing the lengths of feature sequences before classifying into interacting and non-interacting classes. This dissertation proposed a method to predict protein-protein interactions from amino acid sequences using only artificial boundary data generation and boosting procedures to improve the prediction accuracies. The feature extraction is based on the correlation coefficients of physicochemical properties, the statistical means and standard deviations of secondary structures and protein properties. The important data which lie into the boundary of each subcluster were only used to generate the artificial boundary data by bootstrap resampling technique. Finally, the only artificial boundary data of both positive and negative protein pairs were predicted by boosting method based on neural network classifier. The empirical study has shown that our proposed method yielded better prediction accuracy than the sequence-based methods when performed on Yeast Saccharomyces Cerevisiae data set. Moreover, the number of feature and the number of training data were less than others. The prediction models were also evaluated by cross-species test data sets. The result showed that the proposed method also capable to predict with the good performance on cross-species data. |
Other Abstract: | แม้ว่าการใช้เฉพาะสายลำดับโปรตีน อาจจะมีเพียงพอสำหรับการทำนายอันตรกิริยาคู่โปรตีนโดยใช้โครงข่ายประสาทเทียม แต่มีปัญหาที่ต้องพิจารณาคือ การสกัดคุณลักษณะของคู่โปรตีนให้อยู่ในรูปของตัวมูลตัวเลข ปัญหาถัดมาคือ ต้องสงวนรักษาคุณสมบัติของคู่โปรตีนนั้น หลังจากที่ทำให้เป็นเว็กเตอร์ตัวเลขที่มีขนาดเท่ากันในแต่ละคู่โปรตีน วิทยานิพนธ์นี้จึงได้นำเสนอวิธีการทำนายอันตรกิริยาระหว่างคู่โปรตีนจากสายลำดับโปรตีน ที่ใช้เฉพาะขอบข้อมูลเทียมที่ได้สร้างขึ้นจากข้อมูลคู่โปรตีน รวมทั้งหลักการบูตส่งเสริมเพื่อเพิ่มประสิทธิภาพในการทำนายของโครงข่ายประสาทเทียม โดยการสกัดคุณลักษณะของคู่โปรตีนบนพื้นฐานสัมประสิทธิ์สหสัมพันธ์เชิงเคมีกายภาพ ค่าทางสถิติของโครงสร้างทุติยภูมิ และคุณสมบัติที่สำคัญของโปรตีน หลังจากนั้นจะได้คุณลักษณะของคู่โปรตีนที่อยู่ในรูปของข้อมูลเว็กเตอร์ตัวเลขที่มีขนาดเท่ากัน ซึ่งข้อมูลตัวเลขเหล่านี้จะถูกนำมาหาขอบข้อมูล และนำเฉพาะขอบนี้ไปสร้างข้อมูลขอบเทียมโดยใช้หลักการบูตสแทรป และขั้นตอนสุดท้าย ข้อมูลขอบเทียมเท่านั้นจะถูกนำไปใช้ทำนายการเกิดอันตรกิริยาคู่โปรตีน โดยใช้หลักการบูตส่งเสริมโครงข่ายประสาทเทียม ผลการทดลองกับข้อมูลยีสต์ ปรากฏว่าวิธีการที่ได้นำเสนอนั้น สามารถทำนายได้ถูกต้องมากกว่าวิธีการอื่นที่นำมาเปรียบเทียบ มากไปกว่านั้นวิธีที่นำเสนอได้ใช้เฉพาะข้อมูลขอบเทียมมาเป็นข้อมูลการสอน ซึ่งจำนวนข้อมูลสอนจะน้อยกว่าวิธีอื่นด้วย นอกจากนี้ยังประเมินประสิทธิภาพการทำนายด้วยข้อมูลทดสอบโปรตีนข้ามสายพันธุ์ ผลแสดงให้เห็นว่าวิธีการที่นำเสนอนั้นมีประสิทธิภาพการทำนายดีกว่าวิธีการอื่นที่นำมาเปรียบเทียบ |
Description: | Thesis (Ph.D.)--Chulalongkorn University, 2011 |
Degree Name: | Doctor of Philosophy |
Degree Level: | Doctoral Degree |
Degree Discipline: | Computer Science |
URI: | http://cuir.car.chula.ac.th/handle/123456789/22374 |
URI: | http://doi.org/10.14457/CU.the.2011.1645 |
metadata.dc.identifier.DOI: | 10.14457/CU.the.2011.1645 |
Type: | Thesis |
Appears in Collections: | Sci - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
putthiporn_th.pdf | 1.07 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.