Abstract:
ในงานวิจัยนี้เป็นการศึกษาวิธีการแก้ไขปัญหาในการจำแนกข้อความประทุษวาจา ด้วยวิธีการสังเคราะห์ข้อความขึ้นเพื่อแก้ไขปัญหาของการเกิดชุดข้อมูลไม่สมดุลที่ปรากฏในข้อมูลที่เก็บรวบรวมมาจากทวิตเตอร์ ซึ่งหลังจากเก็บรวบรวม ทำความสะอาดข้อมูลและติดฉลากข้อมูลแล้ว ผู้วิจัยได้สร้างตัวอย่างเพิ่มเติม 3 วิธีคือ คือ 1. การสุ่มตัวอย่างส่วนน้อยเพิ่มด้วยการสังเคราะห์ (Synthetic Minority Over-sampling Technique: SMOTE) 2. เทคนิคการสร้างข้อความเพิ่ม (Text generation) 3.เทคนิคคำฝังตัว (Word Embedding) เป็นวิธีการในการใช้สังเคราะห์ตัวอย่างเพิ่มเติม ให้เกิดความสมดุลก่อนที่จะนำข้อมูลชุดใหม่ที่สร้างขึ้นใหม่แบ่ง ตัวอย่างเป็น 3 รูปแบบในการจำแนกข้อความประทุษวาจา คือ 1. อัลกอริทึมนาอีฟเบย์ (Navie bays) 2. หน่วยความจำระยะสั้นแบบยาว (LSTM) 3. หน่วยความจำระยะสั้นแบบยาว ร่วมกับ โครงข่ายประสาทแบบคอนโวลูชัน (LSTM + CNN) เพื่อเป็นการจำแนกข้อความประทุษวาจา ในชุดข้อความที่เป็นข้อความธรรมดา โดยผลการทดลองการจำแนกข้อความมีความหมายเชิงประทุษวาจา ซึ่งในการทดลองแรกได้ลองใช้ข้อมูลที่ไม่สมดุล จากผลการทดลองทั้ง 3 รูปแบบที่ใช้ในการจำแนกซึ่งให้ความถูกต้องไม่สูงเท่าที่ควร จากนั้นจึงทำการแก้ไขปัญหาในชุดของข้อมูลทำให้ได้ความถูกต้องสูงขึ้นในทุกชุดของทุกโมเดล