Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/81546
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | เนื่องวงศ์ ทวยเจริญ | - |
dc.contributor.author | จินตรัย พุทธิพรชัย | - |
dc.contributor.other | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ | - |
dc.date.accessioned | 2023-02-03T04:00:43Z | - |
dc.date.available | 2023-02-03T04:00:43Z | - |
dc.date.issued | 2565 | - |
dc.identifier.uri | http://cuir.car.chula.ac.th/handle/123456789/81546 | - |
dc.description | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565 | - |
dc.description.abstract | บทความวิจัยของไทยที่มีจำนวนเพิ่มมากขึ้นทำให้การจัดหมวดหมู่เป็นหมวดหมู่ย่อยเป็นเรื่องที่ท้าทาย ซึ่งต้องใช้ผู้เชี่ยวชาญและต้องใช้เวลามากในการจัดประเภทบทความประเภทต่าง ๆ ดังนั้นงานวิจัยนี้จึงนำเสนอวิธีการและเทคนิคในการจำแนกบทความวิทยาการคอมพิวเตอร์แบบหลายฉลากในวารสารไทยและนำเสนอการเปรียบเทียบวิธีการต่าง ๆ สำหรับการจำแนกประเภทหลายฉลาก คือ Binary Relevance (BR), Classifier Chains (CC) และ Label Power-set (LP) ด้วยวิธีการตัดคำที่ใช้ตัวแยกประเภทซัพพอร์ตเวกเตอร์แมชชีน พบว่าวิธีการ CC-SVM-RBF kernel ร่วมกับวิธีการตัดคำภาษาไทย pythainlp และ TF-IDF ให้ผลลัพธ์ที่ดีที่สุดสำหรับ ตัวชี้วัดประสิทธิภาพการเลือกตอบตามตัวอย่าง และ ตัวชี้วัดประสิทธิภาพการจำแนกประเภทหลายฉลาก โดยมี ML-accuracy = 0.578, Subset accuracy = 0.300, ค่าเรียกคืน = 0.670 และ ค่าเฉลี่ยไมโครสำหรับค่าเรียกคืน = 0.670 อย่างไรก็ตามวิธีการ BR-SVM-RBF kernel ร่วมกับวิธีการตัดคำภาษาไทย pythainlp ให้ผลลัพธ์ที่ดีที่สุดสำหรับ ตัวชี้วัดประสิทธิภาพการเลือกตอบตามตัวอย่าง และ ตัวชี้วัดประสิทธิภาพการจำแนกประเภทหลายฉลาก คือ Hamming loss = 0.106, ค่าแม่นยำ = 0.735, ตัววัด F1 = 0.665, ค่าเฉลี่ยไมโครสำหรับค่าแม่นยำ = 0.586 และ ค่าเฉลี่ยไมโครสำหรับตัววัด F1 = 0.715 งานในอนาคตควรปรับปรุง Subset accuracy สำหรับแบบจำลองการจำแนกประเภทหลายฉลากในภาษาไทย | - |
dc.description.abstractalternative | The increasing number of Thai research articles makes it challenging to classify them into sub-categories. This task requires specialists and a lot of time to classify the different types of articles. Therefore, this research presents methods and techniques for multi-label classification of computer science articles in Thai journals. We present a comparison of different methods for multi-label classification, including Binary Relevance (BR), Classifier Chains (CC), and Label Power-set (LP) with a word segmentation method that uses a Support Vector Machine (SVM) classifier. We found that the CC-SVM-RBF kernel method combined with pythainlp word segmentation and TF-IDF produces the best results for both example-based and label-based metrics, with ML-accuracy is 0.578, Subset accuracy is 0.300, Recall is 0.670 and Micro-average recall is 0.670 On the other hand, BR-SVM-RBF combined with pythainlp word segmentation and TF-IDF produces the best results for both example-based and label-based metrics with Hamming loss is 0.106, Precision is 0.735, F-measure is 0.655, Micro-average precision is 0.586 and Micro-average F-Measure is 0.715. In Future work, Subset accuracy should be improved for the multi-label classification model in the Thai language. | - |
dc.language.iso | th | - |
dc.publisher | จุฬาลงกรณ์มหาวิทยาลัย | - |
dc.relation.uri | http://doi.org/10.58837/CHULA.THE.2022.771 | - |
dc.rights | จุฬาลงกรณ์มหาวิทยาลัย | - |
dc.subject.classification | Computer Science | - |
dc.subject.classification | Computer Science | - |
dc.title | การจำแนกประเภทแบบหลายฉลากของบทความในฐานข้อมูลวารสารวิชาการไทยจากบทคัดย่อ | - |
dc.title.alternative | Multi-label classification for articles in Thai journal database from article's abstract | - |
dc.type | Thesis | - |
dc.degree.name | วิทยาศาสตรมหาบัณฑิต | - |
dc.degree.level | ปริญญาโท | - |
dc.degree.discipline | วิทยาศาสตร์คอมพิวเตอร์ | - |
dc.degree.grantor | จุฬาลงกรณ์มหาวิทยาลัย | - |
dc.identifier.DOI | 10.58837/CHULA.THE.2022.771 | - |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
6370043021.pdf | 1.9 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.