Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/1382
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorBoonserm Kijsirikul-
dc.contributor.authorNuanwan Soonthornphisaj-
dc.contributor.otherChulalongkorn University. Faculty of Engineering-
dc.date.accessioned2006-08-03-
dc.date.available2006-08-03-
dc.date.issued2002-
dc.identifier.isbn9741713614-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/1382-
dc.descriptionThesis (Ph.D.)--Chulalongkorn University, 2002en
dc.description.abstractThe goal of the Web page categorization is to classify Web documents into a certain number of predefined categories. Previous works in this area employed a large number of labeled training documents for supervised learning. The problem is that, it is difficult to create labeled training documents. Though it is difficult to manually categorize unlabeled documents for creating training data, it is easy to collect unlabeled ones. Therefore, a new machine learning algorithm is investigated to overcome these difficulties and effectively utilize unlabeled documents. We propose in this thesis a novel approach called Iterative Cross-Training (ICT) to solve the Web page categorization problem. In this thesis, we applied the algorithm to solve the Web page categorization problems on four data sets. The performance of ICT was evaluated and analyzed with the supervised learning, Co-Training and Expectation Maximization algorithms. We found that the ICT algorithmis an effective approach for the Web page categorization task. We studied the effect of noise on the Web page categorization problem and found that the ICT algorithm was robust to noise when domain knowledge was given. In case that no domain knowledge was available, ICT's performance loss was less than other learning algorithms. Furthermore, the enhanced version of ICT was developed. We integrated an Inductive Logic Programming (ILP) with the ICT algorithm. The experimental results showed that the ILP system had capability to increase the overall performance of ICTen
dc.description.abstractalternativeเป้าหมายของการจำแนกประเภทเว็บเพจคือการระบุประเภทของเว็บเพจให้อยู่ในหมวดหมู่ที่กำหนด ซึ่งในงานวิจัยก่อนหน้านี้ได้มีการศึกษาถึงเทคนิคในการจำแนกประเภทเว็บเพจให้มีประสิทธิภาพมากที่สุด หนึ่งในวิธีการดังกล่าวคือการใช้อัลกอริทึมการเรียนรู้แบบ Supervised Learning ซึ่งต้องอาศัยข้อมูลฝึกเป็นจำนวนมาก ปัญหาที่เกิดขึ้นคือการสร้างชุดข้อมูลฝึกเหล่านี้ต้องอาศัยกำลังของผู้เชี่ยวชาญเฉพาะด้านต่างๆเป็นจำนวนมาก อีกทั้งยังต้องใช้เวลาเป็นจำนวนมากในการสร้างชุดข้อมูลดังกล่าว ดังนั้นจึงมีความจำเป็นที่จะต้องคิดค้น อัลกอริทึมที่สามารถแก้ปัญหาดังกล่าวได้โดยที่ยังคงประสิทธิภาพการทำงานให้ใกล้เคียงกัน ดังนั้นผู้วิจัยจึงได้เสนออัลกอริทึมการสอนไขว้แบบวนซ้ำสำหรับการจำแนกประเภทเว็บเพจขึ้นเพื่อแก้ปัญหาดังกล่าว ผู้วิจัยได้ทำการทดสอบอัลกอริทึมการสอนไขว้แบบวนซ้ำเพื่อการจำแนกประเภทเว็บเพจกับข้อมูลทั้งสิ้น 4 ชุด ประสิทธิภาพการทำงานของอัลกอริทึมได้ถูกนำไปวิเคราะห์และเปรียบเทียบกับอัลกอริทึมอื่นๆ ได้แก่ Supervised Learning, Co-Training และ Expectation Maximization ผลการทดลองพบว่าโดยเฉลี่ยแล้ว อัลกอริทึมการสอนไขว้แบบวนซ้ำเป็นอัลกอริทึมที่มีประสิทธิภาพทัดเทียมกับอัลกอริทึมแบบ Supervised Learning และมีประสิทธิภาพดีกว่าอัลกอริทึมแบบ Co-Training และ Expectation Maximizationผู้วิจัยได้ศึกษาถึงผลกระทบของข้อมูลสัญญาณรบกวน (Noise) ที่มีต่อการจำแนกประเภทเว็บเพจ จากผลการทดลองพบว่าในกรณีที่มีการให้ความรู้ที่เกี่ยวกับลักษณะของปัญหา (domain knowledge) แก่ อัลกอริทึม อัลกอริทึมการสอนไขว้แบบวนซ้ำไม่สูญเสียประสิทธิภาพการทำงานเมื่อเทียบกับอัลกอริทึมอื่นๆ แต่ในกรณีที่ไม่มีการให้ความรู้ที่เกี่ยวกับลักษณะของปัญหาแก่อัลกอริทึม พบว่าอัลกอริทึมการสอนไขว้แบบวนซ้ำสูญเสียประสิทธิภาพการทำงานน้อยกว่าวิธีการอื่น นอกจากนี้ผู้วิจัยได้ปรับปรุงประสิทธิภาพของอัลกอริทึมโดยการนำวิธีการโปรแกรมตรรกะเชิงอุปนัย (Inductive Logic Programming) มาประยุกต์เพื่อให้อัลกอริทึมการสอนไขว้แบบวนซ้ำทำงานได้อย่างมีประสิทธิภาพมากยิ่งขึ้น ซึ่งผลการทดลองพบว่า วิธีการโปรแกรมตรรกะเชิงอุปนัยมีส่วนช่วยในการทำให้ประสิทธิภาพการทำงานโดยรวมของ อัลกอริทึมการสอนไขว้แบบวนซ้ำดียิ่งขึ้น-
dc.format.extent1797528 bytes-
dc.format.mimetypeapplication/pdf-
dc.language.isoenen
dc.publisherChulalongkorn Universityen
dc.rightsChulalongkorn Universityen
dc.subjectMachine learningen
dc.subjectWeb sites -- Classificationen
dc.subjectInductive logic programmingen
dc.subjectIterative cross-training algorithmen
dc.titleAn iterative cross-training algorithm for Web page categorizationen
dc.title.alternativeอัลกอริทึมการสอนไขว้แบบวนซ้ำสำหรับการจำแนกประเภทเว็บเพจen
dc.typeThesisen
dc.degree.nameDoctor of Philosophyen
dc.degree.levelDoctoral Degreeen
dc.degree.disciplineComputer Engineeringen
dc.degree.grantorChulalongkorn Universityen
dc.email.advisorboonserm@cp.eng.chula.ac.th, Boonserm.K@chula.ac.th-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Nuanwan.pdf1.66 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.