Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/81546
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorเนื่องวงศ์ ทวยเจริญ-
dc.contributor.authorจินตรัย พุทธิพรชัย-
dc.contributor.otherจุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์-
dc.date.accessioned2023-02-03T04:00:43Z-
dc.date.available2023-02-03T04:00:43Z-
dc.date.issued2565-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/81546-
dc.descriptionวิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565-
dc.description.abstractบทความวิจัยของไทยที่มีจำนวนเพิ่มมากขึ้นทำให้การจัดหมวดหมู่เป็นหมวดหมู่ย่อยเป็นเรื่องที่ท้าทาย ซึ่งต้องใช้ผู้เชี่ยวชาญและต้องใช้เวลามากในการจัดประเภทบทความประเภทต่าง ๆ ดังนั้นงานวิจัยนี้จึงนำเสนอวิธีการและเทคนิคในการจำแนกบทความวิทยาการคอมพิวเตอร์แบบหลายฉลากในวารสารไทยและนำเสนอการเปรียบเทียบวิธีการต่าง ๆ สำหรับการจำแนกประเภทหลายฉลาก คือ Binary Relevance (BR), Classifier Chains (CC) และ Label Power-set (LP) ด้วยวิธีการตัดคำที่ใช้ตัวแยกประเภทซัพพอร์ตเวกเตอร์แมชชีน พบว่าวิธีการ CC-SVM-RBF kernel ร่วมกับวิธีการตัดคำภาษาไทย pythainlp และ TF-IDF ให้ผลลัพธ์ที่ดีที่สุดสำหรับ ตัวชี้วัดประสิทธิภาพการเลือกตอบตามตัวอย่าง และ ตัวชี้วัดประสิทธิภาพการจำแนกประเภทหลายฉลาก โดยมี ML-accuracy = 0.578, Subset accuracy = 0.300, ค่าเรียกคืน = 0.670 และ ค่าเฉลี่ยไมโครสำหรับค่าเรียกคืน = 0.670 อย่างไรก็ตามวิธีการ BR-SVM-RBF kernel ร่วมกับวิธีการตัดคำภาษาไทย pythainlp ให้ผลลัพธ์ที่ดีที่สุดสำหรับ ตัวชี้วัดประสิทธิภาพการเลือกตอบตามตัวอย่าง และ ตัวชี้วัดประสิทธิภาพการจำแนกประเภทหลายฉลาก คือ Hamming loss = 0.106, ค่าแม่นยำ = 0.735, ตัววัด F1 = 0.665, ค่าเฉลี่ยไมโครสำหรับค่าแม่นยำ = 0.586 และ ค่าเฉลี่ยไมโครสำหรับตัววัด F1 = 0.715 งานในอนาคตควรปรับปรุง Subset accuracy สำหรับแบบจำลองการจำแนกประเภทหลายฉลากในภาษาไทย-
dc.description.abstractalternativeThe increasing number of Thai research articles makes it challenging to classify them into sub-categories. This task requires specialists and a lot of time to classify the different types of articles. Therefore, this research presents methods and techniques for multi-label classification of computer science articles in Thai journals. We present a comparison of different methods for multi-label classification, including Binary Relevance (BR), Classifier Chains (CC), and Label Power-set (LP) with a word segmentation method that uses a Support Vector Machine (SVM) classifier. We found that the CC-SVM-RBF kernel method combined with pythainlp word segmentation and TF-IDF produces the best results for both example-based and label-based metrics, with ML-accuracy is 0.578, Subset accuracy is 0.300, Recall is 0.670 and Micro-average recall is 0.670 On the other hand, BR-SVM-RBF combined with pythainlp word segmentation and TF-IDF produces the best results for both example-based and label-based metrics with Hamming loss is 0.106, Precision is 0.735, F-measure is 0.655, Micro-average precision  is 0.586 and Micro-average F-Measure is  0.715. In Future work, Subset accuracy should be improved for the multi-label classification model in the Thai language.-
dc.language.isoth-
dc.publisherจุฬาลงกรณ์มหาวิทยาลัย-
dc.relation.urihttp://doi.org/10.58837/CHULA.THE.2022.771-
dc.rightsจุฬาลงกรณ์มหาวิทยาลัย-
dc.subject.classificationComputer Science-
dc.subject.classificationComputer Science-
dc.titleการจำแนกประเภทแบบหลายฉลากของบทความในฐานข้อมูลวารสารวิชาการไทยจากบทคัดย่อ-
dc.title.alternativeMulti-label classification for articles in Thai journal database from article's abstract-
dc.typeThesis-
dc.degree.nameวิทยาศาสตรมหาบัณฑิต-
dc.degree.levelปริญญาโท-
dc.degree.disciplineวิทยาศาสตร์คอมพิวเตอร์-
dc.degree.grantorจุฬาลงกรณ์มหาวิทยาลัย-
dc.identifier.DOI10.58837/CHULA.THE.2022.771-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
6370043021.pdf1.9 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.