DSpace Repository

การจำแนกประเภทแบบหลายฉลากของบทความในฐานข้อมูลวารสารวิชาการไทยจากบทคัดย่อ

Show simple item record

dc.contributor.advisor เนื่องวงศ์ ทวยเจริญ
dc.contributor.author จินตรัย พุทธิพรชัย
dc.contributor.other จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
dc.date.accessioned 2023-02-03T04:00:43Z
dc.date.available 2023-02-03T04:00:43Z
dc.date.issued 2565
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/81546
dc.description วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565
dc.description.abstract บทความวิจัยของไทยที่มีจำนวนเพิ่มมากขึ้นทำให้การจัดหมวดหมู่เป็นหมวดหมู่ย่อยเป็นเรื่องที่ท้าทาย ซึ่งต้องใช้ผู้เชี่ยวชาญและต้องใช้เวลามากในการจัดประเภทบทความประเภทต่าง ๆ ดังนั้นงานวิจัยนี้จึงนำเสนอวิธีการและเทคนิคในการจำแนกบทความวิทยาการคอมพิวเตอร์แบบหลายฉลากในวารสารไทยและนำเสนอการเปรียบเทียบวิธีการต่าง ๆ สำหรับการจำแนกประเภทหลายฉลาก คือ Binary Relevance (BR), Classifier Chains (CC) และ Label Power-set (LP) ด้วยวิธีการตัดคำที่ใช้ตัวแยกประเภทซัพพอร์ตเวกเตอร์แมชชีน พบว่าวิธีการ CC-SVM-RBF kernel ร่วมกับวิธีการตัดคำภาษาไทย pythainlp และ TF-IDF ให้ผลลัพธ์ที่ดีที่สุดสำหรับ ตัวชี้วัดประสิทธิภาพการเลือกตอบตามตัวอย่าง และ ตัวชี้วัดประสิทธิภาพการจำแนกประเภทหลายฉลาก โดยมี ML-accuracy = 0.578, Subset accuracy = 0.300, ค่าเรียกคืน = 0.670 และ ค่าเฉลี่ยไมโครสำหรับค่าเรียกคืน = 0.670 อย่างไรก็ตามวิธีการ BR-SVM-RBF kernel ร่วมกับวิธีการตัดคำภาษาไทย pythainlp ให้ผลลัพธ์ที่ดีที่สุดสำหรับ ตัวชี้วัดประสิทธิภาพการเลือกตอบตามตัวอย่าง และ ตัวชี้วัดประสิทธิภาพการจำแนกประเภทหลายฉลาก คือ Hamming loss = 0.106, ค่าแม่นยำ = 0.735, ตัววัด F1 = 0.665, ค่าเฉลี่ยไมโครสำหรับค่าแม่นยำ = 0.586 และ ค่าเฉลี่ยไมโครสำหรับตัววัด F1 = 0.715 งานในอนาคตควรปรับปรุง Subset accuracy สำหรับแบบจำลองการจำแนกประเภทหลายฉลากในภาษาไทย
dc.description.abstractalternative The increasing number of Thai research articles makes it challenging to classify them into sub-categories. This task requires specialists and a lot of time to classify the different types of articles. Therefore, this research presents methods and techniques for multi-label classification of computer science articles in Thai journals. We present a comparison of different methods for multi-label classification, including Binary Relevance (BR), Classifier Chains (CC), and Label Power-set (LP) with a word segmentation method that uses a Support Vector Machine (SVM) classifier. We found that the CC-SVM-RBF kernel method combined with pythainlp word segmentation and TF-IDF produces the best results for both example-based and label-based metrics, with ML-accuracy is 0.578, Subset accuracy is 0.300, Recall is 0.670 and Micro-average recall is 0.670 On the other hand, BR-SVM-RBF combined with pythainlp word segmentation and TF-IDF produces the best results for both example-based and label-based metrics with Hamming loss is 0.106, Precision is 0.735, F-measure is 0.655, Micro-average precision  is 0.586 and Micro-average F-Measure is  0.715. In Future work, Subset accuracy should be improved for the multi-label classification model in the Thai language.
dc.language.iso th
dc.publisher จุฬาลงกรณ์มหาวิทยาลัย
dc.relation.uri http://doi.org/10.58837/CHULA.THE.2022.771
dc.rights จุฬาลงกรณ์มหาวิทยาลัย
dc.subject.classification Computer Science
dc.subject.classification Computer Science
dc.title การจำแนกประเภทแบบหลายฉลากของบทความในฐานข้อมูลวารสารวิชาการไทยจากบทคัดย่อ
dc.title.alternative Multi-label classification for articles in Thai journal database from article's abstract
dc.type Thesis
dc.degree.name วิทยาศาสตรมหาบัณฑิต
dc.degree.level ปริญญาโท
dc.degree.discipline วิทยาศาสตร์คอมพิวเตอร์
dc.degree.grantor จุฬาลงกรณ์มหาวิทยาลัย
dc.identifier.DOI 10.58837/CHULA.THE.2022.771


Files in this item

This item appears in the following Collection(s)

Show simple item record