Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/73587
Title: | Lightly-supervised learning methods for one-class text classification |
Other Titles: | วิธีการเรียนรู้แบบมีผู้สอนเล็กน้อยสำหรับการจัดหมู่ข้อความแบบคลาสเดียว |
Authors: | Yiping Jin |
Advisors: | Dittaya Wanvarie |
Other author: | Chulalongkorn University. Faculty of Science |
Advisor's Email: | Dittaya.W@chula.ac.th |
Issue Date: | 2018 |
Publisher: | Chulalongkorn University |
Abstract: | This thesis introduces a lightly-supervised learning method to train text classifiers with very little manual labelling effort. We adapt two previous state-of-theart lightly-supervised models, generalized expectation (GE) criteria (Druck et al. (2008)) and multinomial naïve Bayes (MNB) with priors (Settles (2011)) to oneclass classification problem. Users just need to label a handful of keywords for the target category. We also combine the two aforementioned models by letting MNB automatically augment the list of GE constraints. In addition, we ensemble two families of classifiers to improve the accuracy further. We successfully applied our model to a real-world problem of online advertising. On a corpus of online advertising data, the proposed model achieved the top macro average F₁ of 0.69 and closed 50% gap between previous state-of-the-art lightly-supervised models and a fully-supervised model MaxEnt model. |
Other Abstract: | วิทยานิพนธ์นี้นำเสนอวิธีการเรียนรู้แบบมีผู้สอนเล็กน้อยเพื่อสร้างตัวจำแนกข้อความ โดยอาศัยการกำกับคลาสเพียงเล็กน้อย เราปรับใช้ตัวแบบการเรียนรู้แบบมีผู้สอนเล็กน้อย ล่าสุดสองตัวแบบ ได้แก่เกณฑ์การคาดหวังทั่วไป (generalized expectation criteria: GE criteria) (Druck et al. (2008)) และตัวจำแนกอเนกนามแบบเบส์อย่างง่าย (Multinomial Naive Bayes: MNB) โดยมีความรู้ก่อน (Settles (2011)) กับปัญหาการจำแนกคลาส เดียว ผู้ใช้เพียงต้องป้อนคำสำคัญของคลาสที่ต้องการเท่านั้น เราใช้วิธีทั้งสองที่กล่าวมาโดยให้ MNB ช่วยเพิ่มเติมรายการเงื่อนไขของ GE นอกจากนี้เรายังรวมผลลัพธ์ของตัวจำแนกทั้ง สองเพื่อเพิ่มความแม่นยำอีกด้วย เราใช้ตัวแบบที่นำเสนอกับการโฆษณาออนไลน์ซึ่งเป็นปัญหาในโลกจริง ตัวแบบที่นำ เสนอเมื่อใช้กับคลังข้อความโฆษณาออนไลน์มี F₁ เฉลี่ยรวม 0.69 ซึ่งเพิ่มขึ้น 50% จากความ แตกต่างของตัวแบบเดิมที่มีผู้สอนเพียงเล็กน้อยกับตัวจำแนกแบบเอนโทรปีสูงสุด (MaxEnt) ซึ่งใช้ผู้สอนกำกับข้อความทั้งหมด |
Description: | Thesis (M.Sc.)--Chulalongkorn University, 2018 |
Degree Name: | Master of Science |
Degree Level: | Master's Degree |
Degree Discipline: | Computer Science |
URI: | http://cuir.car.chula.ac.th/handle/123456789/73587 |
URI: | http://doi.org/10.58837/CHULA.THE.2018.162 |
metadata.dc.identifier.DOI: | 10.58837/CHULA.THE.2018.162 |
Type: | Thesis |
Appears in Collections: | Sci - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Sci_5972634023_Yiping Jin.pdf | 1.04 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.