Abstract:
งานวิจัยชิ้นนี้มีวัตถุประสงค์ 4 ประการ ประการแรกคือ เพื่อวิเคราะห์หาลักษณ์ทางภาษาที่จะใช้ในการจำแนกประเภทข้อความที่มีการลักลอกและไม่มีการลักลอก ประการต่อมาคือ เพื่อพัฒนาระบบต้นแบบสำหรับตรวจเทียบภายนอกหาการลักลอกงานวิชาการโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีนและการวัดค่าความละม้ายของข้อความ ประการที่ 3 คือ เพื่อประเมินประสิทธิภาพของระบบต้นแบบที่พัฒนาขึ้นใน 2 แง่มุม ได้แก่ ความเหมาะสมของลักษณะของข้อมูลรับเข้าที่จะใช้ในระบบ และความเหมาะสมของลักษณ์ที่ใช้ในการจำแนกประเภทข้อความที่มีการลักลอกและไม่มีการลักลอก และประการสุดท้ายคือ เพื่อเปรียบเทียบวิธีวัดค่าความละม้ายของข้อความที่มีประสิทธิภาพ เหมาะสมจะนำมาใช้ระบบตรวจหาการลักลอกมากที่สุด ในด้านการดำเนินการวิจัย การศึกษาครั้งนี้ได้เพิ่มขั้นตอนเพื่อศึกษาเกี่ยวกับกลวิธีลักลอกงานวิชาการภาษาไทย โดยเก็บข้อมูลจากการจำลองสถานการณ์การลักลอกแล้วนำมาวิเคราะห์ด้วยแนวคิดทางภาษาศาสตร์ ผลจากการศึกษาในขั้นนี้ได้ถูกนำมาใช้ประโยชน์ในการออกแบบและสร้างคลังข้อมูล ตลอดจนนำมาใช้อ้างอิงในการอภิปรายข้อค้นพบในขั้นต่อไป นอกจากนี้ ยังมีการออกแบบ สร้าง และตรวจสอบคุณภาพของคลังข้อมูลด้วยความรอบคอบและรัดกุม เพื่อให้ผลการศึกษาที่ได้มาในตอนท้ายมีความหนักแน่นน่าเชื่อถือ ผลการศึกษาในด้านการวิเคราะห์หาลักษณ์ทางภาษาสำหรับใช้ในการจำแนกประเภทข้อความที่มีการลักลอกและไม่มีการลักลอกปรากฏว่า สามารถวิเคราะห์หาลักษณ์ทางภาษาโดยอาศัยความรู้ทางภาษาศาสตร์มาประยุกต์เข้ากับวิธีการทางการประมวลภาษาธรรมชาติได้ทั้งหมด 51 ลักษณ์ ซึ่งแบ่งเป็นลักษณ์ทางศัพท์ 25 ลักษณ์ ลักษณ์ทางวากยสัมพันธ์ 23 ลักษณ์ ลักษณ์ทางความหมาย 2 ลักษณ์ และลักษณ์ทางวากยสัมพันธ์และความหมาย 1 ลักษณ์ ส่วนผลการศึกษาในด้านการประเมินประสิทธิภาพของระบบต้นแบบที่พัฒนาขึ้นนั้น ในแง่การประเมินประสิทธิภาพของระบบเมื่อใช้ข้อมูลรับเข้าที่ต่างกันปรากฏว่า เมื่อทดสอบการจำแนกประเภทข้อมูลการลักลอกทุกประเภทแล้ว ข้อมูลรับเข้าประเภทย่อหน้ามีความเหมาะสมที่ใช้ในระบบมากกว่าข้อมูลรับเข้าประเภทหน่วยปริจเฉทพื้นฐาน ส่วนในแง่การประเมินประสิทธิภาพของลักษณ์ ปรากฏว่าลักษณ์ที่ให้ประสิทธิภาพสูงที่สุดเป็นลักษณ์ทางศัพท์ คือลักษณ์ค่าสัมประสิทธิ์ความละม้ายโซเรนเซน-ไดซ์ของไบแกรมของคำ (F = 0.9870) และเมื่อพิจารณาผลในภาพรวมแล้ว พบว่าลักษณ์ทางศัพท์และลักษณ์ทางอักขระให้ประสิทธิภาพสูงกว่าลักษณ์ทางวายสัมพันธ์และลักษณ์ทางความหมาย ทั้งนี้ สาเหตุหลักเป็นเพราะลักษณ์ทางศัพท์และลักษณ์ทางอักขระเป็นการแทนรูปคำและอักขระที่ชัดเจน ในขณะที่ลักษณ์ทางวากยสัมพันธ์และลักษณ์ทางความหมายเป็นการแทนรูปความสัมพันธ์ของหน่วยทางภาษาซึ่งมีความเป็นนามธรรมกว่า ส่วนผลการเปรียบเทียบประสิทธิภาพของวิธีวัดค่าความละม้ายของข้อความ พบว่าค่าบรรทัดฐานของลำดับย่อยร่วมยาวสุดที่ยาวที่สุดของคำสามารถให้ค่าความละม้ายได้สอดคล้องกับค่าความละม้ายที่ให้โดยผู้เชี่ยวชาญทางภาษาไทยมากที่สุด (r = 0.9124) จึงถือว่าเป็นวิธีวัดค่าความละม้ายของข้อความที่มีประสิทธิภาพ สามารถนำมาใช้แทนการระบุค่าความละม้ายโดยมนุษย์ในระบบตรวจหาการลักลอกได้ สาเหตุที่ผลปรากฏเป็นเช่นนี้อาจเป็นเพราะผู้เชี่ยวชาญพิจารณาความละม้ายของข้อความจากลำดับของรูปคำเช่นเดียวกับวิธีการวัดค่าความละม้ายข้างต้น