Abstract:
งานวิจัยนี้มีวัตถุประสงค์เพื่อรวบรวมและวิเคราะห์การสะกดผิดแบบเป็นคำจริงในภาษาไทยที่พบบนอินเทอร์เน็ต พร้อมกับพัฒนาระบบตรวจแก้การสะกดผิดแบบเป็นคำจริงในภาษาไทยด้วยแบบจำลองไตรแกรมและประเมินประสิทธิภาพของระบบที่พัฒนาขึ้น งานวิจัยนี้แบ่งออกเป็นสองส่วน ส่วนแรกเป็นการวิเคราะห์การสะกดผิดแบบเป็นคำจริงในภาษาไทยจำนวน 1,674 คำ จากหนังสือคำไทยที่มักเขียนผิดรวบรวมโดยผู้เชี่ยวชาญภาษาไทย ซึ่งทุกคำล้วนผ่านการตัดคำสำเร็จและพบตัวอย่างการใช้จริงบนอินเทอร์เน็ต จากการวิเคราะห์พบว่าคำที่สะกดผิดเหล่านี้ส่วนใหญ่หรือร้อยละ 80 เป็นคำที่สะกดผิดหนึ่งตำแหน่งซึ่งมักจะสะกดผิดที่พยัญชนะต้นมากที่สุด และส่วนที่เหลืออีก 20% เป็นคำที่สะกดผิดหลายตำแหน่งและส่วนใหญ่จะยังออกเสียงเหมือนเดิม ในส่วนที่สองเป็นการพัฒนาระบบตรวจแก้การสะกดผิดแบบเป็นคำจริงในภาษาไทยด้วยแบบจำลองไตรแกรมพร้อมกับประเมินประสิทธิภาพของระบบ ข้อมูลที่นำมาใช้ทดสอบเป็นข้อความที่มีคำสะกดผิดอยู่อย่างน้อยหนึ่งคำและคำนั้นจะต้องเป็นคำที่สะกดผิดแบบเป็นคำจริง จำนวน 1,000 ข้อความ ซึ่งระบบจะทำการตรวจจับคำที่สะกดผิดทั้งหมดในข้อความโดยนำสายคำเรียงสามแต่ละสายของข้อความเทียบกับคลังข้อมูลไตรแกรม หากไม่พบแสดงว่าสายคำเรียงสามนั้นต้องสงสัยว่าสะกดผิด โดยสายคำเรียงสามที่ต้องสงสัยทั้งหมดจะถูกนำไปปรับแก้ด้วยวิธีการปรับแก้น้อยสุด จากนั้นสายเรียงสามคำที่ถูกปรับแก้แล้วจะถูกนำไปแทนที่การสะกดผิดเดิมแล้วคำนวณหาค่าความน่าจะเป็นของข้อความ ซึ่งระบบจะเลือกสายคำเรียงสามที่ให้ค่าความน่าจะเป็นของข้อความสูงสุดมาใช้แก้ไขการสะกดผิด ผู้วิจัยได้ประเมินประสิทธิภาพของระบบในสามด้าน ได้แก่ ด้านระยะเวลาในการประมวลผลพบว่าระบบแบบจำลองไตรแกรมใช้เวลาในการประมวลผลทั้งหมด 128 วินาที ด้านประสิทธิภาพในการตรวจจับคำที่สะกดผิดแบบเป็นคำจริงในภาษาไทยพบว่ามีค่าความแม่นยำ (precision) และค่าความครบถ้วน (recall) เท่ากัน คือ 0.47 ส่วนด้านประสิทธิภาพในการแก้ไขคำที่สะกดผิดแบบเป็นคำจริงในภาษาไทยพบว่ามีค่าความครบถ้วนและค่าความแม่นยำอยู่ที่ 0.85