Please use this identifier to cite or link to this item: http://cuir.car.chula.ac.th/handle/123456789/26499
Title: Advanced machine learning method for prediction of protein secondary structure
Other Titles: วิธีการขั้นสูงที่เครื่องเรียนรู้เพื่อการทำนายโครงสร้างทุติยภูมิของโปรตีน
Authors: Kasemsant Kuphanumat
Advisors: Chidchanok Lursinsap
Other author: Chulalongkorn University. Faculty of Sceince
Issue Date: 2005
Abstract: A new method based on Markov process to encode the protein sequences has been introduced. With this simple method, input vectors that contain the essential features of protein sequence can be extracted and efficiently used to train SVM classifiers. Our method achieved the remarkable result that out-performs other advanced methods at present. Using a seven-folded cross validation on the data set of 513 non-homologous protein chains (CB513), the SVM together with Markov transition matrix encoding scheme produces a three-state overall per-residue accuracy(Q3) of 82.49 percent and a segment overlap accuracy(SOV) of 77.18 percent. That is the next improving step to reach the theoretical limitation.
Other Abstract: วิทยานิพนธ์ฉบับนี้ได้นำเสนอวิธีการใหม่ในการเข้ารหัสลำดับอะมิโนแอซิดของโปรตีนโดยใช้วิธีการของมาคอล์ฟโปรเซส ด้วยเทคนิคนี้ ลักษณะเด่นที่สำคัญของลำดับสายโปรตีนจะถูกสกัดออกและนำไปใช้สร้างชุดของเวคเตอร์สำหรับเป็นข้อมูลในการสอนเพื่อการจำแนกประเภทด้วยซัพพอร์ตเวคเตอร์แมชชีน (SVM) ได้อย่างมีประสิทธิภาพ วิธีการที่ใช้ในงานวิจัยนี้ให้ผลลัพธ์ที่โดดเด่นกว่าวิธีการอื่นๆ ที่มีในปัจจุบันเป็นอย่างมาก ด้วยวิธีการจำแนกประเภทโดยใช้ SVM ร่วมกับวิธีการเข้ารหัสของข้อมูลโดยใช้มาคอฟทรานสิชั่นเมตริกสามารถวัดค่าความถูกต้องในการจำแนกแบบสามกลุ่มได้ดังนี้คือ Q3 = 82.49%, SOV = 77.18% โดยการประเมินจากกลุ่มข้อมูลทดสอบมาตรฐานของโปรตีนจำนวน 513 สาย (CB513) ซึ่งผลที่ได้นับว่าเป็นการพัฒนาเข้าใกล้ขีดจำกัดทางทฤษฎีได้อีกขั้นหนึ่ง
Description: Thesis (D.Sc.)--Chulalongkorn University, 2005
Degree Name: Doctor of Philosophy
Degree Level: Doctoral Degree
Degree Discipline: Computer Science
URI: http://cuir.car.chula.ac.th/handle/123456789/26499
ISBN: 9745328065
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
Kasemsant_ku_front.pdf2.39 MBAdobe PDFView/Open
Kasemsant_ku_ch1.pdf2.59 MBAdobe PDFView/Open
Kasemsant_ku_ch2.pdf4.16 MBAdobe PDFView/Open
Kasemsant_ku_ch3.pdf7.83 MBAdobe PDFView/Open
Kasemsant_ku_ch4.pdf4.64 MBAdobe PDFView/Open
Kasemsant_ku_back.pdf2.52 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.