Abstract:
การตรวจสอบคุณภาพงานเขียนเรียงความในภาษาไทยยังคงเป็นงานที่ยุ่งยาก เนื่องจากเป็นภาษาที่ซับซ้อนมากทั้งในด้านเครื่องหมายวรรคตอน โครงสร้างประโยค การซ้ำคำ การสะกดคำ การแสดงความคิดเห็น และการให้เหตุผล ดังนั้นการตรวจสอบคุณภาพงานเขียนเรียงความภาษาไทยจึงเป็นงานที่ต้องอาศัยทักษะของผู้ตรวจทั้งด้านการอ่านและการตีความ ทำให้ใช้เวลาในการตรวจคุณภาพงานเขียนมาก นอกจากนี้หากมีผู้ตรวจมากกว่า 1 คน อาจส่งผลต่อมาตรฐานที่ใช้ในการตรวจสอบคุณภาพงานเขียนที่แตกต่างกัน งานวิจัยนี้ได้รวบรวมข้อมูลเรียงความภาษาไทยที่เขียนโดยนิสิตที่ลงทะเบียนเรียนในหลักสูตรการเขียนย่อหน้า จากสถาบันภาษาไทยสิรินธรแห่งจุฬาลงกรณ์มหาวิทยาลัย และนำแบบจำลองหน่วยความจำระยะสั้นแบบยาว (LSTM) แบบจำลองโครงข่ายประสาทเทียมแบบสังวัตนาการ (CNN) แบบจำลองเบิร์ต (BERT) และแบบจำลองวังจันทร์เบอร์ต้า (WangchanBERTa) มาพัฒนาระบบสำหรับการตรวจสอบคุณภาพงานเขียนอัตโนมัติ เพื่อเปรียบเทียบประสิทธิภาพการตรวจสอบคุณภาพงานเขียนเรียงความในภาษาไทย จากผลการทดลองแบบจำลอง WangchanBERTa ที่ประมวลผลด้วย Adam Optimizer และใช้ Binary Crossentropy เป็น Loss Function เหมาะกับปัญหาประเภทการจัดกลุ่ม โดยมีประสิทธิภาพในการทำนายคุณภาพการเขียนเรียงความในภาษาไทยสูง และมีค่าความถูกต้องสูงกว่า 90% ส่วนแบบจำลอง CNN มีค่าความถูกต้องสูงกว่า 87% ในขณะที่เมื่อประมวลผลด้วย RMSprop Optimizer และใช้ Mean Squared Error เป็น Loss Function เหมาะกับปัญหาประเภทการถดถอยและมีความถูกต้องอยู่ในช่วง 90% - 98% จึงสรุปได้ว่าแบบจำลอง WangchanBERTa เหมาะสำหรับปัญหาการจำแนกประเภท และแบบจำลอง CNN เหมาะสำหรับปัญหาการถดถอย เพื่อให้สามารถทำนายคุณภาพงานเขียนเรียงความในความภาษาไทยได้อย่างมีประสิทธิภาพสูงสุด