Please use this identifier to cite or link to this item: http://cuir.car.chula.ac.th/handle/123456789/1382
Title: An iterative cross-training algorithm for Web page categorization
Other Titles: อัลกอริทึมการสอนไขว้แบบวนซ้ำสำหรับการจำแนกประเภทเว็บเพจ
Authors: Nuanwan Soonthornphisaj
Advisors: Boonserm Kijsirikul
Other author: Chulalongkorn University. Faculty of Engineering
Advisor's Email: boonserm@cp.eng.chula.ac.th, Boonserm.K@chula.ac.th
Subjects: Machine learning
Web sites -- Classification
Inductive logic programming
Iterative cross-training algorithm
Issue Date: 2002
Publisher: Chulalongkorn University
Abstract: The goal of the Web page categorization is to classify Web documents into a certain number of predefined categories. Previous works in this area employed a large number of labeled training documents for supervised learning. The problem is that, it is difficult to create labeled training documents. Though it is difficult to manually categorize unlabeled documents for creating training data, it is easy to collect unlabeled ones. Therefore, a new machine learning algorithm is investigated to overcome these difficulties and effectively utilize unlabeled documents. We propose in this thesis a novel approach called Iterative Cross-Training (ICT) to solve the Web page categorization problem. In this thesis, we applied the algorithm to solve the Web page categorization problems on four data sets. The performance of ICT was evaluated and analyzed with the supervised learning, Co-Training and Expectation Maximization algorithms. We found that the ICT algorithmis an effective approach for the Web page categorization task. We studied the effect of noise on the Web page categorization problem and found that the ICT algorithm was robust to noise when domain knowledge was given. In case that no domain knowledge was available, ICT's performance loss was less than other learning algorithms. Furthermore, the enhanced version of ICT was developed. We integrated an Inductive Logic Programming (ILP) with the ICT algorithm. The experimental results showed that the ILP system had capability to increase the overall performance of ICT
Other Abstract: เป้าหมายของการจำแนกประเภทเว็บเพจคือการระบุประเภทของเว็บเพจให้อยู่ในหมวดหมู่ที่กำหนด ซึ่งในงานวิจัยก่อนหน้านี้ได้มีการศึกษาถึงเทคนิคในการจำแนกประเภทเว็บเพจให้มีประสิทธิภาพมากที่สุด หนึ่งในวิธีการดังกล่าวคือการใช้อัลกอริทึมการเรียนรู้แบบ Supervised Learning ซึ่งต้องอาศัยข้อมูลฝึกเป็นจำนวนมาก ปัญหาที่เกิดขึ้นคือการสร้างชุดข้อมูลฝึกเหล่านี้ต้องอาศัยกำลังของผู้เชี่ยวชาญเฉพาะด้านต่างๆเป็นจำนวนมาก อีกทั้งยังต้องใช้เวลาเป็นจำนวนมากในการสร้างชุดข้อมูลดังกล่าว ดังนั้นจึงมีความจำเป็นที่จะต้องคิดค้น อัลกอริทึมที่สามารถแก้ปัญหาดังกล่าวได้โดยที่ยังคงประสิทธิภาพการทำงานให้ใกล้เคียงกัน ดังนั้นผู้วิจัยจึงได้เสนออัลกอริทึมการสอนไขว้แบบวนซ้ำสำหรับการจำแนกประเภทเว็บเพจขึ้นเพื่อแก้ปัญหาดังกล่าว ผู้วิจัยได้ทำการทดสอบอัลกอริทึมการสอนไขว้แบบวนซ้ำเพื่อการจำแนกประเภทเว็บเพจกับข้อมูลทั้งสิ้น 4 ชุด ประสิทธิภาพการทำงานของอัลกอริทึมได้ถูกนำไปวิเคราะห์และเปรียบเทียบกับอัลกอริทึมอื่นๆ ได้แก่ Supervised Learning, Co-Training และ Expectation Maximization ผลการทดลองพบว่าโดยเฉลี่ยแล้ว อัลกอริทึมการสอนไขว้แบบวนซ้ำเป็นอัลกอริทึมที่มีประสิทธิภาพทัดเทียมกับอัลกอริทึมแบบ Supervised Learning และมีประสิทธิภาพดีกว่าอัลกอริทึมแบบ Co-Training และ Expectation Maximizationผู้วิจัยได้ศึกษาถึงผลกระทบของข้อมูลสัญญาณรบกวน (Noise) ที่มีต่อการจำแนกประเภทเว็บเพจ จากผลการทดลองพบว่าในกรณีที่มีการให้ความรู้ที่เกี่ยวกับลักษณะของปัญหา (domain knowledge) แก่ อัลกอริทึม อัลกอริทึมการสอนไขว้แบบวนซ้ำไม่สูญเสียประสิทธิภาพการทำงานเมื่อเทียบกับอัลกอริทึมอื่นๆ แต่ในกรณีที่ไม่มีการให้ความรู้ที่เกี่ยวกับลักษณะของปัญหาแก่อัลกอริทึม พบว่าอัลกอริทึมการสอนไขว้แบบวนซ้ำสูญเสียประสิทธิภาพการทำงานน้อยกว่าวิธีการอื่น นอกจากนี้ผู้วิจัยได้ปรับปรุงประสิทธิภาพของอัลกอริทึมโดยการนำวิธีการโปรแกรมตรรกะเชิงอุปนัย (Inductive Logic Programming) มาประยุกต์เพื่อให้อัลกอริทึมการสอนไขว้แบบวนซ้ำทำงานได้อย่างมีประสิทธิภาพมากยิ่งขึ้น ซึ่งผลการทดลองพบว่า วิธีการโปรแกรมตรรกะเชิงอุปนัยมีส่วนช่วยในการทำให้ประสิทธิภาพการทำงานโดยรวมของ อัลกอริทึมการสอนไขว้แบบวนซ้ำดียิ่งขึ้น
Description: Thesis (Ph.D.)--Chulalongkorn University, 2002
Degree Name: Doctor of Philosophy
Degree Level: Doctoral Degree
Degree Discipline: Computer Engineering
URI: http://cuir.car.chula.ac.th/handle/123456789/1382
ISBN: 9741713614
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Nuanwan.pdf1.66 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.