Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/52187
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorพีรพล เวทีกูลen_US
dc.contributor.authorณัฐชนน ผจงกิจพิพัฒน์en_US
dc.contributor.otherจุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์en_US
dc.date.accessioned2017-03-03T03:02:00Z-
dc.date.available2017-03-03T03:02:00Z-
dc.date.issued2559en_US
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/52187-
dc.descriptionวิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2559en_US
dc.description.abstractการจำแนกประเภทแบบหลายฉลากมีลำดับชั้น เป็นการจำแนกประเภทที่รวมลักษณะเฉพาะของปัญหาสองรูปแบบคือ ข้อมูลแต่ละตัวอาจจัดอยู่ได้ในหลายคลาส และคลาสเหล่านี้มีความสัมพันธ์เป็นโครงสร้างลำดับชั้น ซึ่งข้อมูลในชีวิตจริงมักจะมีลักษณะซับซ้อนเช่นนี้ การจำแนกประเภทข้อความแบบหลายฉลากมีลำดับชั้น เป็นหัวข้อการวิจัยที่ได้รับความสนใจอย่างมากในปัจจุบัน เพราะโครงสร้างลำดับชั้นใช้อธิบายความสัมพันธ์ของข้อมูลประเภทข้อความได้ดี ข้อมูลประเภทข้อความที่เราพบอยู่ทุกวันก็คือ ข้อมูลบนเว็บไซต์นั่นเอง เว็บไซต์ที่เพิ่มจำนวนขึ้นอย่างรวดเร็ว ทำให้เว็บอย่างเว็บไดเรกทอรีและวิกิพีเดียจำเป็นต้องมีระบบการจำแนกประเภทอย่างอัตโนมัติเมื่อมีหน้าเว็บใหม่เข้ามาในฐานข้อมูล ด้วยข้อมูลมหาศาลเช่นนี้ ปัญหานี้จึงถือเป็นการจำแนกประเภทขนาดใหญ่แบบหลายฉลากมีลำดับชั้น งานวิจัยหลายงานนำเสนอวิธีแก้ปัญหาการจำแนกประเภทแบบหลายฉลากมีลำดับชั้น แต่วิธีเหล่านั้นประมวลผลข้อมูลขนาดใหญ่ไม่ได้ เนื่องจากการประมวลผลอาจต้องใช้พื้นที่เก็บข้อมูลขนาดใหญ่มาก อาจใช้เวลาประมวลผลนานเกินไป หรือทำนายคลาสได้ไม่แม่นยำ บางวิธีการที่พอจะรองรับข้อมูลขนาดใหญ่ได้ก็ไม่ได้นำโครงสร้างลำดับชั้นมาใช้ให้เกิดประโยชน์ งานวิจัยนี้จึงได้นำเสนอการจำแนกข้อความขนาดใหญ่แบบหลายฉลากมีลำดับชั้นที่ปรับปรุงวิธีการ k-NN ซึ่งเป็นวิธีการแบบแฟลต และนำโครงสร้างลำดับชั้นมาใช้ด้วยการฝึกตัวจำแนกประเภท SVM ที่โหนดชั้นบนของโครงสร้างลำดับชั้น เพื่อช่วยกรองคำตอบให้มีความถูกต้องแม่นยำมากขึ้น นอกจากนี้ยังมีการตัดฟีเจอร์ที่ปรากฏน้อยครั้งออกไปเพื่อช่วยลดจำนวนฟีเจอร์ และการนำฟีเจอร์สำคัญของข้อมูลทดสอบมาช่วยเลือกข้อมูลเรียนรู้เพื่อลดข้อมูลที่จะต้องพิจารณาอีกด้วย ผลการประเมินประสิทธิภาพแสดงให้เห็นว่าวิธีที่นำเสนออยู่อันดับที่ 4 มีค่า LBMaF เท่ากับ 25.70% เมื่อทดสอบบนข้อมูลวิกิพีเดียขนาดกลาง และอยู่อันดับที่ 2 มีค่า LBMaF เท่ากับ 23.48% เมื่อทดสอบบนข้อมูลวิกิพีเดียขนาดใหญ่en_US
dc.description.abstractalternativeHierarchical multi-label classification is a type of classification which combines two aspects of problems; an instance may belong to more than one class, and these classes are organized into a hierarchical structure. Real world data are often complex like this. Hierarchical multi-label text classification is becoming ever more popular nowadays, because hierarchical structure can be applied to describe the relationship of textual data. Textual data which we have seen every day are web pages. As the size of web pages has been becoming extremely large, website such as Web directory and Wikipedia need the automated system to classify new web pages in their databases. This kind of problem is, therefore, a large-scale hierarchical multi-label classification. Many researches proposed various methods to deal with the problem, but these methods cannot process large-scale data. The methods may require a large storage space, may take too long to process or may have low accuracy. Meanwhile, some methods that can process large-scale data do not utilize the hierarchical structure at all. This thesis proposed large-scale hierarchical multi-label text classification method that improved k-nearest neighbor method and utilized the hierarchical structure by trained SVM at the top level of hierarchy in order to increase the precision. Furthermore, we removed features that rarely appeared in training dataset to reduce large number of features, and used important features of test data to select training data in order to reduce large number of data. The evaluation showed that our proposed method ranked fourth on Wiki-Medium dataset with 25.70% LBMaF and ranked second on Wiki-Large dataset with 23.48% LBMaF.en_US
dc.language.isothen_US
dc.publisherจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.relation.urihttp://doi.org/10.58837/CHULA.THE.2016.979-
dc.rightsจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.subjectการประมวลผลข้อความ-
dc.subjectText processing (Computer science)-
dc.titleการจำแนกข้อความขนาดใหญ่แบบหลายฉลากมีลำดับชั้นโดยใช้วิธีการแบบแฟลตด้วยยุทธศาสตร์ตัดเล็มแบบเอสวีเอ็มen_US
dc.title.alternativeLARGE-SCALE HIERARCHICAL MULTI-LABEL TEXT CLASSIFICATION USING FLAT APPROACH WITH SVM PRUNING STRATEGYen_US
dc.typeThesisen_US
dc.degree.nameวิศวกรรมศาสตรมหาบัณฑิตen_US
dc.degree.levelปริญญาโทen_US
dc.degree.disciplineวิศวกรรมคอมพิวเตอร์en_US
dc.degree.grantorจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.email.advisorPeerapon.V@chula.ac.th,peerapon.vateekul@gmail.comen_US
dc.identifier.DOI10.58837/CHULA.THE.2016.979-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
5670192221.pdf2.93 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.