Abstract:
ศิลาจารึกจัดเป็นหนึ่งในวรรณกรรมชนิดลายลักษณ์อักษรที่บันทึกเรื่องราวทางประวัติศาสตร์และแสดงเอกลักษณ์ของวัฒนธรรมในช่วงเวลานั้น ๆ ผ่านวิธีการสลักตัวอักษรลงบนแผ่นหินด้วยวัสดุโลหะแหลมคมทีละตัวอักษรจนกลายเป็นประโยคที่สามารถสื่อใจความให้ผู้อ่านสามารถเข้าใจความหมายดังนั้นความสมบูรณ์ของประโยคนั้นมีความสำคัญเป็นอย่างมากในงานด้านการประมวลผลภาษาธรรมชาติ โดยเฉพาะอย่างยิ่งเมื่อมีการถอดความศิลาจารึกและพบว่าศิลาจารึกบางส่วนไม่สามารถถอดความได้อันเป็นเหตุเนื่องมาจากช่วงของระยะเวลาผ่านไปจารึกเหล่านั้นอาจเกิดการเสื่อมสภาพจากหลายสาเหตุจนเป็นรอยขีดข่วนทับข้อความหรือตัวอักษรจนเลือนลาง, ถูกทำลายจากภัยธรรมชาติจนไม่สามารถวิเคราะห์ได้ว่าตัวอักษรที่ชำรุดคือตัวอักษรใด ๆ เพื่อเพิ่มความสมบูรณ์ให้กับประโยคที่ขาดหายไปงานวิจัยนี้จึงใช้วิธีการสร้างโมเดลทำนายอักขระของตัวอักษรที่ขาดหายไปจากข้อความโดยการใช้เทคนิคโมเดลภาษาแบบมาสก์เข้ามาช่วยในการประมวลผลการทดลองโดยใช้เป็นพรีเทรนโมเดลหลากหลายภาษา (multilingual pre-train model) 3 ประเภทดังต่อไปนี้ (1) โมเดลเอ็กซ์แอลเอ็ม-โรเบอตา (2) โมเดลเบิร์ต-เบส-หลายภาษา-เคสด์ (3) โมเดลดิสทิลเบิร์ต-เบส-หลายภาษา-เคสด์ และการใช้โมเดลในกลุ่มแบบจำลองโครงข่ายประสาทเทียมแบบลึกแบบเรียนรู้สองทิศทางได้แก่ (4) โมเดลหน่วยความจำระยะสั้นระยะยาวแบบสองทิศทาง โดยในแต่ละรอบของการเทรนจะทำการสุ่มปิดอักขระด้วยมาสก์โทเคน “” หรือ “[MASK]” ให้โมเดลทำนายคำที่ขาดหายไปตรงจุดที่ถูกมาสก์โทเคนและจากผลการทดลองพบว่าความถูกต้องของการทำนายจากพรีเทรนโมเดลทั้ง 4 ประเภท คือ (1) 42 % (2) 53 % (3) 50 % และ (4) 36 % ตามลำดับ ในงานวิจัยฉบับนี้ได้นำเสนอวิธีการปรับปรุงความสามารถในการทำนายของโมเดลโดยใช้คลังคำศัพท์เฉพาะทำให้โมเดลมีประสิทธิภาพในการทำนายความถูกต้องได้แม่นยำมากขึ้น