Abstract:
ข้อความส่อเสียดเป็นปัญหาหนึ่งในการประมวลผลภาษาธรรมชาติเนื่องจากข้อความส่อเสียดจะกลับขั้วความคิดเห็นของข้อความทำให้การวิเคราะห์ความคิดเห็นของข้อความผิดไปจากความเป็นจริง งานวิจัยนี้ได้เสนอวิธีจำแนกข้อความส่อเสียดออกจากข้อความปกติ โดยประยุกต์ใช้ความน่าจะเป็นของข้อความ และใช้ข้อมูลความคิดเห็นของผู้บริโภคเกี่ยวกับเครือข่ายอินเตอร์เน็ตเครือข่ายหนึ่งบนเครือข่ายสังคมออนไลน์ทวิตเตอร์ในการศึกษา โดยเก็บรวบรวมข้อมูลผ่านช่องทาง Advance Search API เริ่มตั้งแต่วันที่ 25 มกราคม 2553 ถึงวันที่ 9 มิถุนายน 2559 ทั้งสิ้น 4,027 ข้อความ จากนั้นจึงประมวลผลข้อมูลเบื้องต้นโดยตัดข้อความที่มีความซ้ำซ้อน URL ที่ปรากฏอยู่ภายในข้อความ เครื่องหมายแฮชแท็กรวมถึงข้อความแฮชแทก เครื่องหมายอ้างถึง (@) และชื่อบุคคลที่ถูกอ้างถึง ตัวอักษรหรือตัวเลขที่ปรากฏติดกันมากกว่า 3 ตัวขึ้นไปรวมถึงอักขระพิเศษต่าง ๆ ในการศึกษาแบ่งการทดลองออกเป็นสองส่วน ส่วนที่หนึ่งเป็นส่วนการประมวลผลโดยเครื่อง ในส่วนนี้ข้อความแต่ละข้อความจะถูกแบ่งเป็นคำ และแปลงให้อยู่ในโมเดล bigram ซึ่งจะใช้ในการคำนวณความน่าจะเป็นของข้อความโดยใช้วิธีภาวะความควรจะเป็นสูงสุด (Maximum Likelihood Estimation) ในส่วนที่สองกำหนดให้บุคคลจำนวน 5 คนประเมินข้อความแต่ละข้อความว่าข้อความนั้นเป็นข้อความส่อเสียด ข้อความปกติ หรือไม่สามารถระบุได้ แล้วนำคะแนนประเมินมาหาคะแนนความน่าจะเป็นเฉลี่ย แล้วนำความน่าจะเป็นของข้อความที่ได้จากการคำนวณโดยเครื่องและคะแนนความน่าจะเป็นเฉลี่ยที่ได้จากการประเมินของมนุษย์มาตรวจสอบระดับความสัมพันธ์โดยใช้สหสัมพันธ์ของเพียร์สัน จากผลการทดลองพบว่าค่า P-Value มีค่าเป็น 0.015 ซึ่งสรุปได้ว่าความน่าจะเป็นของข้อความที่คำนวณโดยเครื่องมีความสัมพันธ์ไปในทิศทางเดียวกันกับการจำแนกข้อความส่อเสียดโดยมนุษย์