การสร้างคำถามภาษาไทยโดยใช้ MT5

ณัฎฐนิช วิวัฒน์บุตรสิริ

dc.contributor.advisor	อติวงศ์ สุชาโต
dc.contributor.advisor	โปรดปราน บุณยพุกกณะ
dc.contributor.advisor	เนื่องวงศ์ ทวยเจริญ
dc.contributor.author	ณัฎฐนิช วิวัฒน์บุตรสิริ
dc.contributor.other	จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
dc.date.accessioned	2022-07-23T05:18:04Z
dc.date.available	2022-07-23T05:18:04Z
dc.date.issued	2564
dc.identifier.uri	http://cuir.car.chula.ac.th/handle/123456789/80134
dc.description	วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2564
dc.description.abstract	มีงานวิจัยเกี่ยวกับเรื่องการสร้างคำถามอยู่จำนวนมากในขอบเขตภาษาอังกฤษแต่แทบไม่มีงานวิจัยเรื่องการสร้างคำถามในภาษาไทย มีชุดข้อมูลคำถาม-คำตอบในขอบเขตของภาษาอังกฤษมากกว่า 1 ล้านคู่คำถาม-คำตอบซึ่งมีจำนวนมากเมื่อเปรียบเทียบกับในขอบเขตของภาษาไทยที่มีอยู่เพียงประมาณ 12,000 คู่ งานวิจัยนี้ขอนำเสนอวิธีพัฒนาการสร้างคำถามอัตโนมัติจากบทความโดยไม่ต้องมีคำตอบในการสร้างคำถาม ภายใต้เงื่อนไขการฝึกสอนจากชุดข้อมูลที่มีอยู่อย่างจำกัด โดยแบบจำลองการสร้างคำถามอัตโนมัติซึ่งฝึกสอนโดยแบบจำลองที่ผ่านการเรียนรู้มาก่อน MT5 จากชุดข้อมูลที่มนุษย์สร้างขึ้น สามารถสร้างคำถามจากชุดข้อมูลภาษาไทยที่เมื่อประเมินอัตโนมัติโดยวัดจากคะแนน BLEU-1 ได้คะแนน 56.19 เราจึงนำเสนอวิธีการเพิ่มประสิทธิภาพการสร้างคำถามจากการสังเคราะห์ข้อมูลและกลไกที่นำเสนอเพิ่มเติมโดยยังคงใช้เพียงแบบจำลองที่ผ่านการเรียนรู้มาก่อน MT5 ซึ่งแบบจำลองที่ผ่านการพัฒนาแล้วมีคะแนน BLEU-1 ถึง 59.03 มากกว่าแบบจำลองที่ผ่านมา นอกจากนี้ผลการประเมินประสิทธิภาพของคำถามโดยมนุษย์ยังแสดงคะแนนด้านความไพเราะ 4.40 คะแนน, ด้านความเกี่ยวข้องกับบทความ 4.65 คะแนนและด้านการตอบคำถามได้จากบทความ 4.7 คะแนนจากทั้งหมด 5 คะแนน
dc.description.abstractalternative	There are numerous publications of Question Generation (QG) in English but less in Thai. More than million question-answer pairs are available in the English language, compared with only around 12,000 question-answer pairs in the Thai language. This paper presents a method to improve automatic Thai QG from given passages without an answer. Under a dataset of insufficient size. Our evaluation showed that a QG model which was trained by the pre-trained model MT5 from a Thai dataset achieved a BLEU-1 score of 56.19. We proposed a method to generate synthetic data and an additional mechanism by using a single pre-trained model. Our best model outperformed the previous model by achieving a BLEU-1 score of 59.03. The results and from human evaluation in fluency score was 4.40, the relevance score is 4.65, and the answer-ability score is 4.7 from 5.0.
dc.language.iso	th
dc.publisher	จุฬาลงกรณ์มหาวิทยาลัย
dc.relation.uri	http://doi.org/10.58837/CHULA.THE.2021.850
dc.rights	จุฬาลงกรณ์มหาวิทยาลัย
dc.subject.classification	Computer Science
dc.subject.classification	Computer Science
dc.title	การสร้างคำถามภาษาไทยโดยใช้ MT5
dc.title.alternative	Question generation in the Thai language using MT5
dc.type	Thesis
dc.degree.name	วิทยาศาสตรมหาบัณฑิต
dc.degree.level	ปริญญาโท
dc.degree.discipline	วิทยาศาสตร์คอมพิวเตอร์
dc.degree.grantor	จุฬาลงกรณ์มหาวิทยาลัย
dc.identifier.DOI	10.58837/CHULA.THE.2021.850