Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/15825
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorอติวงศ์ สุชาโต-
dc.contributor.advisorโปรดปราน บุณยพุกกณะ-
dc.contributor.authorเอกพล ตั้งวีระพงษ์-
dc.date.accessioned2011-09-10T04:46:09Z-
dc.date.available2011-09-10T04:46:09Z-
dc.date.issued2551-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/15825-
dc.descriptionวิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2551en
dc.description.abstractการขาดมาตรฐานในการถอดอักษรไทยเป็นอักษรโรมันในการเขียนชื่อบุคคลไทยอย่างเหมาะสมทำให้การค้นหาชื่อบุคคลเป็นเรื่องที่ท้าทาย การถอดชื่อของบุคคลอย่างถูกต้องจะเป็นส่วนสำคัญในการค้นหาเอกสารที่เป็นภาษาอังกฤษที่เกี่ยวข้องกับบุคคลนั้นจากชื่อของบุคคลที่สะกดด้วยตัวอักษรไทยเพียงอย่างเดียว แต่การถอดอักษรบนพื้นฐานจากการออกเสียงชื่อของบุคคลเหล่านั้นโดยตรงมักจะนำไปสู่ความผิดพลาดจากการสะกดชื่อด้วยอักษรโรมันคนละแบบกับที่เจ้าของใช้เนื่องจากการสะกดด้วยอักษรไทยกับอักษรโรมันไม่ได้สัมพันธ์กันแบบ 1 ต่อ 1 ทั้งยังมีความนิยมส่วนบุคคลเข้ามาเกี่ยวข้องอีกด้วย งานวิจัยนี้เสนอวิธีการถอดอักษรโดยพิจารณาความนิยมในการใช้เข้ามาเกี่ยวข้อง โดยการแบ่งชื่อบุคคลไทยเป็นสายลำดับของแกรมซึ่งเป็นหน่วยย่อยที่ลักษณะคล้ายพยางค์ที่มีการบังคับจากระบบการเขียนและการออกเสียงทั้งจากภาษาไทยและภาษาอังกฤษ รวบรวมนำมาสร้างเป็นพจนานุกรมแกรมสะสมจากชื่อบุคคลไทย 130,000 ชื่อ ใช้แบบจำลองทางสถิติเข้ามาช่วยในการฝึกฝนบนพื้นฐานของแกรม เมื่อเปรียบเทียบกับวิธีการที่ใช้เป็นฐานซึ่งให้ผลความถูกต้องของการถอดอักษร 18 % วิธีการนี้ให้ผลที่ดีกว่าโดยให้ความถูกต้องของการถอด 46% - 75 % ของชื่อบุคคลที่สะกดอักษรโรมันเมื่อจำนวนของตัวเลือกที่จะเป็นคำตอบมากขึ้นจาก 1 ถึง 15.en
dc.description.abstractalternativeThe lack of standards for Romanization of Thai proper names makes searching activity a challenging task. This is particularly important when searching for people-related documents based on orthographic representation of their names using either solely Thai or English alphabets which is Roman based directly on the names' pronunciations often fails to deliver exact English spellings due to the non-1-to-1 mapping from Thai to English spelling and personal preferences. This paper proposes a Romanization approach where popularity of usages is taken into consideration. Thai names are parsed into sequences of grams, units of syllable-sized or larger governed by pronunciation and spelling constraints in both Thai and English writing systems. A Gram lexicon is constructed from a corpus of more than 130,000 names. Statistical models are trained accordingly based on the Gram lexicon. The proposed method significantly outperformed the current Romanization approach. Approximately 46% to 75% of the correct English spellings are covered when the number of proposed hypotheses increases from 1 to 15.en
dc.format.extent2532049 bytes-
dc.format.mimetypeapplication/pdf-
dc.language.isothes
dc.publisherจุฬาลงกรณ์มหาวิทยาลัยen
dc.relation.urihttp://doi.org/10.14457/CU.the.2008.360-
dc.rightsจุฬาลงกรณ์มหาวิทยาลัยen
dc.subjectการถอดตัวอักษร -- โปรแกรมคอมพิวเตอร์en
dc.subjectภาษาไทย -- การถอดตัวอักษร -- โปรแกรมคอมพิวเตอร์en
dc.subjectTransliteration -- Computer programsen
dc.subjectThai language -- Transliteration -- Computer programs-
dc.titleการถอดชื่อบุคคลจากอักษรไทยเป็นอักษรโรมันโดยอาศัยความนิยมในการใช้เป็นฐานen
dc.title.alternativeRomanization of Thai proper names based on popularity of usageen
dc.typeThesises
dc.degree.nameวิทยาศาสตรมหาบัณฑิตes
dc.degree.levelปริญญาโทes
dc.degree.disciplineวิทยาศาสตร์คอมพิวเตอร์es
dc.degree.grantorจุฬาลงกรณ์มหาวิทยาลัยen
dc.email.advisorAtiwong.S@Chula.ac.th-
dc.email.advisorproadpran.p@chula.ac.th-
dc.identifier.DOI10.14457/CU.the.2008.360-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
akegapon_ta.pdf2.47 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.