Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/1382
Title: | An iterative cross-training algorithm for Web page categorization |
Other Titles: | อัลกอริทึมการสอนไขว้แบบวนซ้ำสำหรับการจำแนกประเภทเว็บเพจ |
Authors: | Nuanwan Soonthornphisaj |
Advisors: | Boonserm Kijsirikul |
Other author: | Chulalongkorn University. Faculty of Engineering |
Advisor's Email: | boonserm@cp.eng.chula.ac.th, Boonserm.K@chula.ac.th |
Subjects: | Machine learning Web sites -- Classification Inductive logic programming Iterative cross-training algorithm |
Issue Date: | 2002 |
Publisher: | Chulalongkorn University |
Abstract: | The goal of the Web page categorization is to classify Web documents into a certain number of predefined categories. Previous works in this area employed a large number of labeled training documents for supervised learning. The problem is that, it is difficult to create labeled training documents. Though it is difficult to manually categorize unlabeled documents for creating training data, it is easy to collect unlabeled ones. Therefore, a new machine learning algorithm is investigated to overcome these difficulties and effectively utilize unlabeled documents. We propose in this thesis a novel approach called Iterative Cross-Training (ICT) to solve the Web page categorization problem. In this thesis, we applied the algorithm to solve the Web page categorization problems on four data sets. The performance of ICT was evaluated and analyzed with the supervised learning, Co-Training and Expectation Maximization algorithms. We found that the ICT algorithmis an effective approach for the Web page categorization task. We studied the effect of noise on the Web page categorization problem and found that the ICT algorithm was robust to noise when domain knowledge was given. In case that no domain knowledge was available, ICT's performance loss was less than other learning algorithms. Furthermore, the enhanced version of ICT was developed. We integrated an Inductive Logic Programming (ILP) with the ICT algorithm. The experimental results showed that the ILP system had capability to increase the overall performance of ICT |
Other Abstract: | เป้าหมายของการจำแนกประเภทเว็บเพจคือการระบุประเภทของเว็บเพจให้อยู่ในหมวดหมู่ที่กำหนด ซึ่งในงานวิจัยก่อนหน้านี้ได้มีการศึกษาถึงเทคนิคในการจำแนกประเภทเว็บเพจให้มีประสิทธิภาพมากที่สุด หนึ่งในวิธีการดังกล่าวคือการใช้อัลกอริทึมการเรียนรู้แบบ Supervised Learning ซึ่งต้องอาศัยข้อมูลฝึกเป็นจำนวนมาก ปัญหาที่เกิดขึ้นคือการสร้างชุดข้อมูลฝึกเหล่านี้ต้องอาศัยกำลังของผู้เชี่ยวชาญเฉพาะด้านต่างๆเป็นจำนวนมาก อีกทั้งยังต้องใช้เวลาเป็นจำนวนมากในการสร้างชุดข้อมูลดังกล่าว ดังนั้นจึงมีความจำเป็นที่จะต้องคิดค้น อัลกอริทึมที่สามารถแก้ปัญหาดังกล่าวได้โดยที่ยังคงประสิทธิภาพการทำงานให้ใกล้เคียงกัน ดังนั้นผู้วิจัยจึงได้เสนออัลกอริทึมการสอนไขว้แบบวนซ้ำสำหรับการจำแนกประเภทเว็บเพจขึ้นเพื่อแก้ปัญหาดังกล่าว ผู้วิจัยได้ทำการทดสอบอัลกอริทึมการสอนไขว้แบบวนซ้ำเพื่อการจำแนกประเภทเว็บเพจกับข้อมูลทั้งสิ้น 4 ชุด ประสิทธิภาพการทำงานของอัลกอริทึมได้ถูกนำไปวิเคราะห์และเปรียบเทียบกับอัลกอริทึมอื่นๆ ได้แก่ Supervised Learning, Co-Training และ Expectation Maximization ผลการทดลองพบว่าโดยเฉลี่ยแล้ว อัลกอริทึมการสอนไขว้แบบวนซ้ำเป็นอัลกอริทึมที่มีประสิทธิภาพทัดเทียมกับอัลกอริทึมแบบ Supervised Learning และมีประสิทธิภาพดีกว่าอัลกอริทึมแบบ Co-Training และ Expectation Maximizationผู้วิจัยได้ศึกษาถึงผลกระทบของข้อมูลสัญญาณรบกวน (Noise) ที่มีต่อการจำแนกประเภทเว็บเพจ จากผลการทดลองพบว่าในกรณีที่มีการให้ความรู้ที่เกี่ยวกับลักษณะของปัญหา (domain knowledge) แก่ อัลกอริทึม อัลกอริทึมการสอนไขว้แบบวนซ้ำไม่สูญเสียประสิทธิภาพการทำงานเมื่อเทียบกับอัลกอริทึมอื่นๆ แต่ในกรณีที่ไม่มีการให้ความรู้ที่เกี่ยวกับลักษณะของปัญหาแก่อัลกอริทึม พบว่าอัลกอริทึมการสอนไขว้แบบวนซ้ำสูญเสียประสิทธิภาพการทำงานน้อยกว่าวิธีการอื่น นอกจากนี้ผู้วิจัยได้ปรับปรุงประสิทธิภาพของอัลกอริทึมโดยการนำวิธีการโปรแกรมตรรกะเชิงอุปนัย (Inductive Logic Programming) มาประยุกต์เพื่อให้อัลกอริทึมการสอนไขว้แบบวนซ้ำทำงานได้อย่างมีประสิทธิภาพมากยิ่งขึ้น ซึ่งผลการทดลองพบว่า วิธีการโปรแกรมตรรกะเชิงอุปนัยมีส่วนช่วยในการทำให้ประสิทธิภาพการทำงานโดยรวมของ อัลกอริทึมการสอนไขว้แบบวนซ้ำดียิ่งขึ้น |
Description: | Thesis (Ph.D.)--Chulalongkorn University, 2002 |
Degree Name: | Doctor of Philosophy |
Degree Level: | Doctoral Degree |
Degree Discipline: | Computer Engineering |
URI: | http://cuir.car.chula.ac.th/handle/123456789/1382 |
ISBN: | 9741713614 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Nuanwan.pdf | 1.66 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.