DSpace Repository

An iterative cross-training algorithm for Web page categorization

Show simple item record

dc.contributor.advisor Boonserm Kijsirikul
dc.contributor.author Nuanwan Soonthornphisaj
dc.contributor.other Chulalongkorn University. Faculty of Engineering
dc.date.accessioned 2006-08-03
dc.date.available 2006-08-03
dc.date.issued 2002
dc.identifier.isbn 9741713614
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/1382
dc.description Thesis (Ph.D.)--Chulalongkorn University, 2002 en
dc.description.abstract The goal of the Web page categorization is to classify Web documents into a certain number of predefined categories. Previous works in this area employed a large number of labeled training documents for supervised learning. The problem is that, it is difficult to create labeled training documents. Though it is difficult to manually categorize unlabeled documents for creating training data, it is easy to collect unlabeled ones. Therefore, a new machine learning algorithm is investigated to overcome these difficulties and effectively utilize unlabeled documents. We propose in this thesis a novel approach called Iterative Cross-Training (ICT) to solve the Web page categorization problem. In this thesis, we applied the algorithm to solve the Web page categorization problems on four data sets. The performance of ICT was evaluated and analyzed with the supervised learning, Co-Training and Expectation Maximization algorithms. We found that the ICT algorithmis an effective approach for the Web page categorization task. We studied the effect of noise on the Web page categorization problem and found that the ICT algorithm was robust to noise when domain knowledge was given. In case that no domain knowledge was available, ICT's performance loss was less than other learning algorithms. Furthermore, the enhanced version of ICT was developed. We integrated an Inductive Logic Programming (ILP) with the ICT algorithm. The experimental results showed that the ILP system had capability to increase the overall performance of ICT en
dc.description.abstractalternative เป้าหมายของการจำแนกประเภทเว็บเพจคือการระบุประเภทของเว็บเพจให้อยู่ในหมวดหมู่ที่กำหนด ซึ่งในงานวิจัยก่อนหน้านี้ได้มีการศึกษาถึงเทคนิคในการจำแนกประเภทเว็บเพจให้มีประสิทธิภาพมากที่สุด หนึ่งในวิธีการดังกล่าวคือการใช้อัลกอริทึมการเรียนรู้แบบ Supervised Learning ซึ่งต้องอาศัยข้อมูลฝึกเป็นจำนวนมาก ปัญหาที่เกิดขึ้นคือการสร้างชุดข้อมูลฝึกเหล่านี้ต้องอาศัยกำลังของผู้เชี่ยวชาญเฉพาะด้านต่างๆเป็นจำนวนมาก อีกทั้งยังต้องใช้เวลาเป็นจำนวนมากในการสร้างชุดข้อมูลดังกล่าว ดังนั้นจึงมีความจำเป็นที่จะต้องคิดค้น อัลกอริทึมที่สามารถแก้ปัญหาดังกล่าวได้โดยที่ยังคงประสิทธิภาพการทำงานให้ใกล้เคียงกัน ดังนั้นผู้วิจัยจึงได้เสนออัลกอริทึมการสอนไขว้แบบวนซ้ำสำหรับการจำแนกประเภทเว็บเพจขึ้นเพื่อแก้ปัญหาดังกล่าว ผู้วิจัยได้ทำการทดสอบอัลกอริทึมการสอนไขว้แบบวนซ้ำเพื่อการจำแนกประเภทเว็บเพจกับข้อมูลทั้งสิ้น 4 ชุด ประสิทธิภาพการทำงานของอัลกอริทึมได้ถูกนำไปวิเคราะห์และเปรียบเทียบกับอัลกอริทึมอื่นๆ ได้แก่ Supervised Learning, Co-Training และ Expectation Maximization ผลการทดลองพบว่าโดยเฉลี่ยแล้ว อัลกอริทึมการสอนไขว้แบบวนซ้ำเป็นอัลกอริทึมที่มีประสิทธิภาพทัดเทียมกับอัลกอริทึมแบบ Supervised Learning และมีประสิทธิภาพดีกว่าอัลกอริทึมแบบ Co-Training และ Expectation Maximizationผู้วิจัยได้ศึกษาถึงผลกระทบของข้อมูลสัญญาณรบกวน (Noise) ที่มีต่อการจำแนกประเภทเว็บเพจ จากผลการทดลองพบว่าในกรณีที่มีการให้ความรู้ที่เกี่ยวกับลักษณะของปัญหา (domain knowledge) แก่ อัลกอริทึม อัลกอริทึมการสอนไขว้แบบวนซ้ำไม่สูญเสียประสิทธิภาพการทำงานเมื่อเทียบกับอัลกอริทึมอื่นๆ แต่ในกรณีที่ไม่มีการให้ความรู้ที่เกี่ยวกับลักษณะของปัญหาแก่อัลกอริทึม พบว่าอัลกอริทึมการสอนไขว้แบบวนซ้ำสูญเสียประสิทธิภาพการทำงานน้อยกว่าวิธีการอื่น นอกจากนี้ผู้วิจัยได้ปรับปรุงประสิทธิภาพของอัลกอริทึมโดยการนำวิธีการโปรแกรมตรรกะเชิงอุปนัย (Inductive Logic Programming) มาประยุกต์เพื่อให้อัลกอริทึมการสอนไขว้แบบวนซ้ำทำงานได้อย่างมีประสิทธิภาพมากยิ่งขึ้น ซึ่งผลการทดลองพบว่า วิธีการโปรแกรมตรรกะเชิงอุปนัยมีส่วนช่วยในการทำให้ประสิทธิภาพการทำงานโดยรวมของ อัลกอริทึมการสอนไขว้แบบวนซ้ำดียิ่งขึ้น
dc.format.extent 1797528 bytes
dc.format.mimetype application/pdf
dc.language.iso en en
dc.publisher Chulalongkorn University en
dc.rights Chulalongkorn University en
dc.subject Machine learning en
dc.subject Web sites -- Classification en
dc.subject Inductive logic programming en
dc.subject Iterative cross-training algorithm en
dc.title An iterative cross-training algorithm for Web page categorization en
dc.title.alternative อัลกอริทึมการสอนไขว้แบบวนซ้ำสำหรับการจำแนกประเภทเว็บเพจ en
dc.type Thesis en
dc.degree.name Doctor of Philosophy en
dc.degree.level Doctoral Degree en
dc.degree.discipline Computer Engineering en
dc.degree.grantor Chulalongkorn University en
dc.email.advisor boonserm@cp.eng.chula.ac.th, Boonserm.K@chula.ac.th


Files in this item

This item appears in the following Collection(s)

Show simple item record