Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/56708
Title: | การปรับปรุงการเข้ารหัสคำทับศัพท์ภาษาไทย/อังกฤษ เพื่อการค้นคืนข้ามภาษาโดยการตัดพยางค์ของรหัสเสียง |
Other Titles: | Improvement of Thai/English transliterated word encoding for cross-language retrieval by syllable segmentation of phonetic codes |
Authors: | โอภาส วงษ์ทวีทรัพย์ |
Advisors: | บุญเสริม กิจศิริกุล สมชาย ประสิทธิ์จูตระกูล |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Advisor's Email: | boonserm.k@chula.ac.th Somchai.P@Chula.ac.th |
Subjects: | Thai language -- Pronunciation English language -- Pronunciation Cross-language information retrieval Neural networks (Computer sciences) ภาษาไทย -- การออกเสียง ภาษาอังกฤษ -- การออกเสียง การค้นคืนสารสนเทศข้ามภาษา นิวรัลเน็ตเวิร์ค (วิทยาการคอมพิวเตอร์) |
Issue Date: | 2549 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | นำเสนอการค้นคืนข้ามภาษา สำหรับคำทับศัพท์ภาษาไทย/อังกฤษ โดยได้ใช้วิธีการของนิวรอลเน็ตเวิร์กในการเข้ารหัสคำ และใช้ขั้นตอนการตัดพยางค์ของรหัสเสียง วิธีการที่นำเสนอช่วยให้สามารถค้นคืนคำทับศัพท์ข้ามภาษาได้ โดยไม่ต้องอาศัยพจนานุกรม ในการค้นคืนข้ามภาษาโดยไม่อาศัยพจนานุกรมนั้น จำเป็นต้องใช้หลักการเข้ารหัสซึ่งเป็นสัญลักษณ์แทนเสียงอ่านของคำ และประกอบด้วยรหัสเสียงของแต่ละอักษรของคำมาเรียงต่อกัน ในการที่จะทราบว่าตัวอักษรที่กำลังสนใจในคำนั้นให้รหัสเสียงใด จำเป็นต้องอาศัยการพิจารณาตัวอักษรข้างเคียงด้วย ดังนั้นการเข้ารหัสคำสามารถจัดได้ว่าเป็นปัญหาการจำแนกอย่างหนึ่ง ด้วยเหตุนี้จึงได้นำวิธีการนิวรอลเน็ตเวิร์กมาใช้ในการเข้ารหัสคำ แต่เนื่องจากว่ารหัสคำของคำไทยและอังกฤษที่มีเสียงอ่านตรงกัน อาจมีความแตกต่างกันบ้าง จึงได้ใช้ขั้นตอนการเปรียบเทียบแบบประมาณสำหรับการค้นคืนคำที่มีเสียงอ่านคล้ายกันมากที่สุด จากผลการทดลองด้วยวิธี K-fold cross validation พบว่าเมื่อได้ปรับปรุงนิวรอลเน็ตเวิร์ก สามารถให้ผลการค้นคืนในแบบที่ 1 ด้วยตัววัด F1 เป็น 83.28% สำหรับกรณีคำไทยทับศัพท์คำอังกฤษและให้ผลการค้นคืน F1 90.54% สำหรับคำอังกฤษทับศัพท์คำไทยที่ค่าความแตกต่างของรหัสเสียงเป็น 0 |
Other Abstract: | To present Thai/English cross-language transliterated world retrieval by using neural networks and syllable segmentation of phonetic codes. The proposed method enables the transliterated word retrieval without using the dictionary. Without dictionary, the phonetic code is employed for cross-language retrieval. The phonetic code of a word represents the sound of the word and it consists of a sequence of phonetic codes of characters in the word. In order to determine the code of a particular character, it is necessary to consider its surrounding characters. Hence this problem can be identified as a classification problem. For this reason, neural networks are used in phonetic encoding. However, as the codes generated from a pair of corresponding Thai/English words are sometimes slightly different, the approximate string matching is applied to determine of character editing. The experimental results, using K-fold cross validation, show that the F1-measure values are 83.28% for Thai/English cross-language transliterated and 90.54% for English/Thai cross-language transliterated with zero distance between phonetic codes. |
Description: | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2549 |
Degree Name: | วิทยาศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิทยาศาสตร์คอมพิวเตอร์ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/56708 |
URI: | http://doi.org/10.14457/CU.the.2006.1073 |
metadata.dc.identifier.DOI: | 10.14457/CU.the.2006.1073 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
opas_wo_front.pdf | 1.59 MB | Adobe PDF | View/Open | |
opas_wo_ch1.pdf | 700.98 kB | Adobe PDF | View/Open | |
opas_wo_ch2.pdf | 2.43 MB | Adobe PDF | View/Open | |
opas_wo_ch3.pdf | 2.08 MB | Adobe PDF | View/Open | |
opas_wo_ch4.pdf | 721.33 kB | Adobe PDF | View/Open | |
opas_wo_ch5.pdf | 2.02 MB | Adobe PDF | View/Open | |
opas_wo_ch6.pdf | 408.43 kB | Adobe PDF | View/Open | |
opas_wo_back.pdf | 1.41 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.