Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/83154
Title: | การเปรียบเทียบการเรียนรู้ของเครื่องและโครงข่ายประสาทเทียมสําหรับการตรวจสอบคุณภาพงานเขียนอัตโนมัติ |
Other Titles: | A comparison of machine learning and neural network algorithms for an automated Thai essay quality checking |
Authors: | ณิชาพรรณ น้อยอยู่ |
Advisors: | เจษฎา ธัชแก้วกรพินธุ์ |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Issue Date: | 2565 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | การตรวจสอบคุณภาพงานเขียนเรียงความในภาษาไทยยังคงเป็นงานที่ยุ่งยาก เนื่องจากเป็นภาษาที่ซับซ้อนมากทั้งในด้านเครื่องหมายวรรคตอน โครงสร้างประโยค การซ้ำคำ การสะกดคำ การแสดงความคิดเห็น และการให้เหตุผล ดังนั้นการตรวจสอบคุณภาพงานเขียนเรียงความภาษาไทยจึงเป็นงานที่ต้องอาศัยทักษะของผู้ตรวจทั้งด้านการอ่านและการตีความ ทำให้ใช้เวลาในการตรวจคุณภาพงานเขียนมาก นอกจากนี้หากมีผู้ตรวจมากกว่า 1 คน อาจส่งผลต่อมาตรฐานที่ใช้ในการตรวจสอบคุณภาพงานเขียนที่แตกต่างกัน งานวิจัยนี้ได้รวบรวมข้อมูลเรียงความภาษาไทยที่เขียนโดยนิสิตที่ลงทะเบียนเรียนในหลักสูตรการเขียนย่อหน้า จากสถาบันภาษาไทยสิรินธรแห่งจุฬาลงกรณ์มหาวิทยาลัย และนำแบบจำลองหน่วยความจำระยะสั้นแบบยาว (LSTM) แบบจำลองโครงข่ายประสาทเทียมแบบสังวัตนาการ (CNN) แบบจำลองเบิร์ต (BERT) และแบบจำลองวังจันทร์เบอร์ต้า (WangchanBERTa) มาพัฒนาระบบสำหรับการตรวจสอบคุณภาพงานเขียนอัตโนมัติ เพื่อเปรียบเทียบประสิทธิภาพการตรวจสอบคุณภาพงานเขียนเรียงความในภาษาไทย จากผลการทดลองแบบจำลอง WangchanBERTa ที่ประมวลผลด้วย Adam Optimizer และใช้ Binary Crossentropy เป็น Loss Function เหมาะกับปัญหาประเภทการจัดกลุ่ม โดยมีประสิทธิภาพในการทำนายคุณภาพการเขียนเรียงความในภาษาไทยสูง และมีค่าความถูกต้องสูงกว่า 90% ส่วนแบบจำลอง CNN มีค่าความถูกต้องสูงกว่า 87% ในขณะที่เมื่อประมวลผลด้วย RMSprop Optimizer และใช้ Mean Squared Error เป็น Loss Function เหมาะกับปัญหาประเภทการถดถอยและมีความถูกต้องอยู่ในช่วง 90% - 98% จึงสรุปได้ว่าแบบจำลอง WangchanBERTa เหมาะสำหรับปัญหาการจำแนกประเภท และแบบจำลอง CNN เหมาะสำหรับปัญหาการถดถอย เพื่อให้สามารถทำนายคุณภาพงานเขียนเรียงความในความภาษาไทยได้อย่างมีประสิทธิภาพสูงสุด |
Other Abstract: | Checking the quality of essay writing in Thai language is still a complicated task because Thai language is very complex language in terms of punctuation, sentence structure, word repetition, spelling, commenting, and reasoning in content. Therefore, checking the quality of an essay and scoring require the reviewer's skills in reading and interpreting that make long time to review. In addition, if in reviewing process using more than one reviewer, it might affect different quality checking standards. We collected essay in Thai language which is written by student who registered paragraph writing course from The Sirindhorn Thai Language Institute of Chulalongkorn University. This work implemented LSTM model, CNN model, BERT model and WangchanBERTa model to compare the effectiveness of checking the quality of Thai essay writing. Our experimental result shows that classification analysis compiled with WangchanBERTa can achieve high accuracy up to 90%. However, CNN model compiled with classification analysis can achieve high accuracy up to 87% while compiled with regression analysis can achieve high accuracy in the range 90%. In conclusion, the system that we proposed can predict the quality of Thai essays with high accuracy. Therefore, we recommended Wangchanberta model for classification problem and CNN model for regression problem. |
Description: | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565 |
Degree Name: | วิทยาศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิทยาศาสตร์คอมพิวเตอร์ |
URI: | https://cuir.car.chula.ac.th/handle/123456789/83154 |
URI: | http://doi.org/10.58837/CHULA.THE.2022.774 |
metadata.dc.identifier.DOI: | 10.58837/CHULA.THE.2022.774 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
6470182621.pdf | 2.33 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.