Please use this identifier to cite or link to this item: http://cuir.car.chula.ac.th/handle/123456789/1528
Title: การค้นคืนข้ามภาษาสำหรับคำทับศัพท์ภาษาไทย/อังกฤษด้วยวิธีการนิวรอลเน็ตเวิร์ก แบบจำลองฮิดเด็นมาร์คอฟ และขั้นตอนวิธีเชิงพันธุกรรม
Other Titles: Thai/English cross-language transliterated word retrieval using neural networks, Hidden Markov Models, and genetic algorithms
Authors: ศิริพจน์ สุรบถโสภณ, 2522-
Advisors: บุญเสริม กิจศิริกุล
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: boonserm@cp.eng.chula.ac.th, Boonserm.K@Chula.ac.th
Subjects: การค้นข้อสนเทศ
การถอดตัวอักษร
นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์)
แบบจำลองฮิดเดนมาร์คอฟ
จีเนติกอัลกอริทึม
Issue Date: 2547
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: วิทยานิพนธ์ฉบับนี้นำเสนอการการค้นคืนข้ามภาษาสำหรับคำทับศัพท์ภาษาไทย/อังกฤษโดยใช้วิธีการนิวรอลเน็ตเวิร์กและแบบจำลองฮิดเด็นมาร์คอฟในการเข้ารหัสคำ และใช้ขั้นตอนวิธีเชิงพันธุกรรม เพื่อเพิ่มความถูกต้องของการค้นคืน วิธีการที่นำเสนอช่วยให้สามารถค้นคืนคำทับศัพท์ข้ามภาษาได้โดยไม่ต้องอาศัยพจนานุกรม ในการค้นคืนข้ามภาษาโดยไม่อาศัยพจนานุกรมนั้นจำเป็นต้องใช้หลักการเข้ารหัสซึ่งเป็นสัญลักษณ์แทนเสียงอ่านของคำและประกอบด้วยรหัสเสียงของแต่ละตัวอักษรของคำมาเรียงต่อกัน ในการที่จะทราบว่าตัวอักษรที่กำลังสนใจในคำนั้นให้รหัสเสียงใดจำเป็นต้องอาศัยการพิจารณาตัวอักษรข้างเคียงด้วย ดังนั้นการเข้ารหัสคำสามารถจัดได้ว่าเป็นปัญหาการจำแนกอย่างหนึ่ง ด้วยเหตุนี้จึงได้นำวิธีการนิวรอลเน็ตเวิร์กและแบบจำลองฮิดเด็นมาร์คอฟมาใช้ในการเข้ารหัสคำ แต่เนื่องจากว่ารหัสคำของคำไหทยและอังกฤษที่มีเสียงอ่านตรงกัน อาจมีความแตกต่างกันบ้าง จึงได้ใช้ชั้นตอนวิธีเชิงพันธุกรรมเพื่อหาต้นทุนการแก้ไขอักขระที่ใช้ในเทคนิคการเปรียบเทียบแบบประมาณสำหรับการค้นคืนคำที่มีเสียงอ่านคล้ายกันมากที่สุด จากผลการทดลองด้วยวิธี K-fold cross validation พบว่าเมื่อใช้นิวรอลเน็ตเวิร์กร่วมกับขั้นตอนวิธีเชิงพันธุกรรมสามารถให้ผลการค้นคืน F1 ได้ประมาณ 90% และเมื่อใช้แบบจำลองฮิดเด็นมาร์คอฟกับขั้นตอนวิธีเชิงพันธุกรรมสามารถให้ผลการค้นคืน F1 ได้ประมาณ 80%
Other Abstract: This thesis presents Thai/English cross-language transliterated word retrieval by using neural networks and Hidden Markov Models for encoding words and using the genetic algorithm for improving the efficiency of the retrieval. The proposed method enables the transliterated word retrieval without using the dictionary. Without dictionary, the phonetic code is employed for cross-language retrieval. The phonetic code of a word represents the sound of the word and it consists of a sequence of phonetic codes of characters in the word. In order to determine the code of a particular character, it is necessary to consider its surrounding characters. Hence this problem can be identified as a classification problem. For this reason, neural networks and Hidden Markov Models are used in phonetic encoding. However, as the codes generated from a pair of corresponding Thai/English words are sometimes slightly different, the genetic algorithm is applied to determine the appropritate cost of character editing used in approximate string matching. The experimental results, using K-fold cross validation, show that the F1-measure of 90% can be obtained when using neural networks and the genetic algorithm, and of 80% when using Hidden Markov Models and the genetic algorithm.
Description: วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2547
Degree Name: วิศวกรรมศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิศวกรรมคอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/1528
ISBN: 9741763832
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Siripod.pdf768.32 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.