DSpace Repository

เทคนิคการเรียกคืนระดับตัวอักษรของศิลาจารึกสุโขทัยด้วยโมเดลภาษาแบบถูกปิด

Show simple item record

dc.contributor.advisor สุกรี สินธุภิญโญ
dc.contributor.author สุจิตรา ทองขำ
dc.contributor.other จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
dc.date.accessioned 2024-02-05T10:45:17Z
dc.date.available 2024-02-05T10:45:17Z
dc.date.issued 2566
dc.identifier.uri https://cuir.car.chula.ac.th/handle/123456789/84472
dc.description วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2566
dc.description.abstract ศิลาจารึกจัดเป็นหนึ่งในวรรณกรรมชนิดลายลักษณ์อักษรที่บันทึกเรื่องราวทางประวัติศาสตร์และแสดงเอกลักษณ์ของวัฒนธรรมในช่วงเวลานั้น ๆ ผ่านวิธีการสลักตัวอักษรลงบนแผ่นหินด้วยวัสดุโลหะแหลมคมทีละตัวอักษรจนกลายเป็นประโยคที่สามารถสื่อใจความให้ผู้อ่านสามารถเข้าใจความหมายดังนั้นความสมบูรณ์ของประโยคนั้นมีความสำคัญเป็นอย่างมากในงานด้านการประมวลผลภาษาธรรมชาติ โดยเฉพาะอย่างยิ่งเมื่อมีการถอดความศิลาจารึกและพบว่าศิลาจารึกบางส่วนไม่สามารถถอดความได้อันเป็นเหตุเนื่องมาจากช่วงของระยะเวลาผ่านไปจารึกเหล่านั้นอาจเกิดการเสื่อมสภาพจากหลายสาเหตุจนเป็นรอยขีดข่วนทับข้อความหรือตัวอักษรจนเลือนลาง, ถูกทำลายจากภัยธรรมชาติจนไม่สามารถวิเคราะห์ได้ว่าตัวอักษรที่ชำรุดคือตัวอักษรใด ๆ เพื่อเพิ่มความสมบูรณ์ให้กับประโยคที่ขาดหายไปงานวิจัยนี้จึงใช้วิธีการสร้างโมเดลทำนายอักขระของตัวอักษรที่ขาดหายไปจากข้อความโดยการใช้เทคนิคโมเดลภาษาแบบมาสก์เข้ามาช่วยในการประมวลผลการทดลองโดยใช้เป็นพรีเทรนโมเดลหลากหลายภาษา (multilingual pre-train model) 3 ประเภทดังต่อไปนี้ (1) โมเดลเอ็กซ์แอลเอ็ม-โรเบอตา (2) โมเดลเบิร์ต-เบส-หลายภาษา-เคสด์ (3) โมเดลดิสทิลเบิร์ต-เบส-หลายภาษา-เคสด์  และการใช้โมเดลในกลุ่มแบบจำลองโครงข่ายประสาทเทียมแบบลึกแบบเรียนรู้สองทิศทางได้แก่ (4) โมเดลหน่วยความจำระยะสั้นระยะยาวแบบสองทิศทาง โดยในแต่ละรอบของการเทรนจะทำการสุ่มปิดอักขระด้วยมาสก์โทเคน “” หรือ “[MASK]” ให้โมเดลทำนายคำที่ขาดหายไปตรงจุดที่ถูกมาสก์โทเคนและจากผลการทดลองพบว่าความถูกต้องของการทำนายจากพรีเทรนโมเดลทั้ง 4 ประเภท คือ (1) 42 % (2) 53 %  (3) 50 % และ (4) 36 % ตามลำดับ ในงานวิจัยฉบับนี้ได้นำเสนอวิธีการปรับปรุงความสามารถในการทำนายของโมเดลโดยใช้คลังคำศัพท์เฉพาะทำให้โมเดลมีประสิทธิภาพในการทำนายความถูกต้องได้แม่นยำมากขึ้น
dc.description.abstractalternative The stone inscription is one type of written literature that recorded the history story and the manifestation of cultural identity in that era through a character engraving method on the stone with sharp metal material for each character until a sentence formed. To convey the message for the readers to understand the meaning. Therefore, the completeness of that sentence is of great importance natural language processing tasks. In particular, when transcription stone inscriptions, it is found that inscriptions' parts cannot interpret. As a result of the period that elapsed, those inscriptions may have suffered deterioration from various causes, resulting in scratches over the text or faded markings, destroyed from natural disasters that making it impossible to analyze which specific characters were damaged. To address enhance the completeness of the missing sentence, this research employs a method of generating predictive models for the missing characters from the text. It utilizes the technique of incorporating a masked language model to assist in processing the experimental data, utilizing 4 types of multilingual pre-trained models as following models are used: (1) XLM-RoBERTa, (2) Bert-base-multilingual-cased, (3) DistilBERT-base-multilingual-cased, and the use of models in the category of a bidirectional long short-term memory deep neural network, including (4) Bi-LSTM. In each training round, random characters are masked using the token "" or "[MASK]" to prompt the model to predict the missing words at the masked positions. From the experimental results, it was found that the accuracy of prediction from the three types of pre-trained models is as follows: (1) 42 %, (2) 53 %, (3) 50 % and 36 % respectively. In this research paper, a method for improving the predictive capabilities of the model is presented by utilizing a domain-specific dictionary. The models are more effective in making accurate predictions.
dc.language.iso th
dc.publisher จุฬาลงกรณ์มหาวิทยาลัย
dc.rights จุฬาลงกรณ์มหาวิทยาลัย
dc.subject.classification Computer Science
dc.subject.classification Education
dc.subject.classification Computer science
dc.title เทคนิคการเรียกคืนระดับตัวอักษรของศิลาจารึกสุโขทัยด้วยโมเดลภาษาแบบถูกปิด
dc.title.alternative A character-level restoration of Sukhothai inscriptions using the masked language model
dc.type Thesis
dc.degree.name วิทยาศาสตรมหาบัณฑิต
dc.degree.level ปริญญาโท
dc.degree.discipline วิทยาศาสตร์คอมพิวเตอร์
dc.degree.grantor จุฬาลงกรณ์มหาวิทยาลัย


Files in this item

This item appears in the following Collection(s)

Show simple item record