Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/31340
Title: | การทำนายตำแหน่งสไปลไซต์โดยใช้ต้นไม้การตัดสินใจและแบบจำลองมาร์คอฟ |
Other Titles: | Splice site prediction using a decision tree and Markov models |
Authors: | สืบกุล กาญจนสุกร์ |
Advisors: | ไพศาล นาคมหาชลาสินธุ์ ศิริสรรพ เหล่าหะเกียรติ |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิทยาศาสตร์ |
Advisor's Email: | Paisan.N@Chula.ac.th ไม่มีข้อมูล |
Subjects: | โปรแกรมคอมพิวเตอร์ จีเนติกอัลกอริทึม การโปรแกรมเชิงพันธุกรรม |
Issue Date: | 2550 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | ในงานวิทยานิพนธ์ฉบับนี้ เราได้พัฒนาโปรแกรมทำนายตำแหน่งสไปลไซต์บนยีนของมนุษย์ โดยใช้ต้นไม้การตัดสินใจและแบบจำลองมาร์คอฟเพื่อคำนวณคะแนนที่จะใช้ตัดสินว่าลำดับนิวคลีโอไทด์ใดๆ ที่กำหนดให้มีแนวโน้มเป็นสไปลไซต์มากเพียงใด เราใช้ต้นไม้การตัดสินใจเพื่อแบ่งกลุ่มลำดับนิวคลีโอไทด์จากความขึ้นแก่กันแบบ χ² และยังใช้แบบจำลองมาร์คอฟอันดับหนึ่งเพื่อคำนวณคะแนนที่ระบุความน่าจะเป็นว่าสไปลไซต์นั้นเป็นจริงหรือเท็จ โปรแกรมนี้มีชื่อว่า “Enhanced GeneSplicer” ซึ่งได้ขยายแนวคิดของโปรแกรม GeneSplicer ด้วยการให้โอกาสแก่กลุ่มสไปลไซต์เท็จอีกครั้ง โดยจะนำมาจำแนกใหม่ และเราจะหาสิ่งที่เหมาะที่สุดของกระบวนการทั้งหมด แม้ว่าเวลาที่ใช้ในการคำนวณจะมากขึ้น แต่เราได้ความแม่นยำในการทำนายที่สูงขึ้น สำหรับค่า false negative 0.2% ในโดเนอร์ไซต์ โปรแกรมสามารถลดค่า false positive จาก 25.5% เหลือ 18.48% ในขณะที่แอกเซพเตอร์ไซต์ลดลงจาก 38.30% เหลือ 34.51% |
Other Abstract: | In this thesis, we will develop a splice site prediction program on human genes. The program will use decision trees and Markov models to calculate scores that can be used decide how likely a given portion on a nucleotide sequence is a splice site. Decision trees will be used to classify nucleotide sequences by the χ² dependence for each position, while the first-order Markov models compute scores that signify the probabilities of a splice site being true or false. The program is named “Enhanced GeneSplicer” as it extends the concept of the GeneSplicer program by giving a second chance to the false sites – they will be reclassified and we seek for the optimality of the whole process. Despite the increased computational time of Enhanced GeneSplicer, we obtained an improvement on the accuracy of the prediction. With 0.2% of false negatives, the percentage of false positives in donor sites drops from 25.5% to 18.48%, while that of the acceptor sites decreases from 38.30% to 34.51%. |
Description: | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2550 |
Degree Name: | วิทยาศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิทยาการคณนา |
URI: | http://cuir.car.chula.ac.th/handle/123456789/31340 |
URI: | http://doi.org/10.14457/CU.the.2007.287 |
metadata.dc.identifier.DOI: | 10.14457/CU.the.2007.287 |
Type: | Thesis |
Appears in Collections: | Sci - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Suebkul_Ka.pdf | 4.2 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.