Please use this identifier to cite or link to this item: http://cuir.car.chula.ac.th/handle/123456789/14274
Title: การสร้างเครือข่ายคำไทยของมโนทัศน์พื้นฐานร่วมของเอนทิตีลำดับที่สอง ด้วยวิธีการแปลสองทาง : การศึกษาปัจจัยความหลากหลายของความหมายที่มีต่อความถูกต้องของการแปล
Other Titles: The Construction of Thai wordnet of 25nd order entity common base concepts using a bi-directional translation method : a study of the diversity of meanings affecting translational accuracy
Authors: ปริศนา อัครพุทธิพร
Advisors: วิโรจน์ อรุณมานะกุล
กฤษณ์ โกสวัสดิ์
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์
Advisor's Email: Wirote.A@Chula.ac.th
ไม่มีข้อมูล
Subjects: ภาษาไทย -- คำและวลี
ภาษาไทย -- พจนานุกรม
ภาษาอังกฤษ -- การแปลเป็นภาษาไทย
ภาษาศาสตร์คอมพิวเตอร์
Issue Date: 2551
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: เครือข่ายคำถูกสร้างขึ้นเพื่อแก้ปัญหาการค้นหาคำศัพท์จากพจนานุกรมโดยทั่วไป ที่ไม่ได้ระบุคำศัพท์ที่มีความหมายใกล้เคียงกัน เพื่อเป็นทางเลือกในการใช้คำศัพท์ให้ถูกต้องตามสถานการณ์ รวมทั้งความสัมพันธ์ประเภทต่างๆ เพื่อให้ผู้ใช้ภาษาเข้าใจในคำศัพท์ได้ดียิ่งขึ้น และใช้เพื่อแก้ปัญหาในงานด้านต่างๆ โดยเฉพาะงานทางด้านการประมวลผลภาษาธรรมชาติ เช่น การแก้ปัญหาความกำกวมทางความหมาย ซึ่งโดยปกติแล้วจะต้องใช้คลังข้อมูลขนาดใหญ่ในการพิจารณาความหมายที่อาจเป็นไปได้ทั้งหมด หรือการแบ่งประเภทของบริบทโดยดูโครงสร้างความสัมพันธ์แบบคำลูกกลุ่ม (Hypernyms) ซึ่งเป็นความสัมพันธ์ประเภทหนึ่งที่รวมอยู่ในเครือข่ายคำ ดังนั้นจึงมีความพยายามสร้างเครือข่ายคำในภาษาต่างๆ ขึ้นมากมาย แนวทางการสร้างเครือข่ายคำไทย ที่ผู้วิจัยเลือกใช้คือแนวทางแบบขยาย (Expand approach) เป็นการสร้างเครือข่ายคำไทยที่สอดคล้องกับมโนทัศน์พื้นฐานร่วมภาษาอังกฤษ เนื่องจากมโนทัศน์พื้นฐานร่วมเหล่านี้ถูกสร้างขึ้นจากส่วนที่หลายๆ ภาษามีร่วมกันโดยใช้กลวิธีการแปลสองทาง จากนั้นนำผลลัพธ์ที่ได้ไปเปรียบเทียบกับ เครือข่ายคำไทยที่ผู้วิจัยสร้างขึ้นเองจากทรัพยากรทางภาษาและผู้เชี่ยวชาญทางภาษา ได้ผลลัพธ์ความถูกต้องของมิติคำศัพท์ 17.35% และความถูกต้องของมิติกลุ่มคำไวพจน์ 64.50% คำแปลไทยจากคำอังกฤษที่มีความหมายเดียว (Monosemic word) ได้ผลลัพธ์ที่มีความถูกต้อง 16.52% ต่ำกว่าคำแปลไทยจากคำอังกฤษที่มีคำหลายความหมาย (Polysemic word) ที่มีค่าความถูกต้อง 18.44% ในขณะที่รูปแบบการจับคู่กับคำแปลภาษาไทยรูปแบบต่างๆ ให้ผลลัพธ์ที่มีความแม่นยำเรียงจากความแม่นยำสูงสุดไปยังความถูกต้องต่ำสุด คือ รูปแบบการจับคู่แบบหนึ่งต่อหลาย (1:many) แบบหลายต่อหลาย (many:many) แบบหนึ่งต่อหนึ่ง (1:1) และแบบหลายต่อหนึ่ง (many:1) ตามลำดับ
Other Abstract: WordNet was built to resolve a problem of lexical searching by dictionaries which normally does not indicate the semantic relations such as synonyms, hyponyms, etc. which can help user to understand more in the language. Furthermore, WordNet can also resolve various problems in natural language processing (NLP) works such as sense disambiguation which traditionally needs a large lexicon in order to know all possible meanings; context classification, which uses Hypernyms, one kind of semantic relations including in WordNet. Therefore, there are many attempts to build WordNet in many languages. Our approach for building Thai WordNet is Expand Approach. This approach is to build Thai WordNet from English Common Base Concepts which are approved to be core concepts in most languages. Then, we compare the result with Thai WordNet that we have built manually by using various language resources and by consulting with language experts. The accuracy was 17.35% for word based and 64.50% for synset based. The accuracy of Thai synsets translated from English monosemic word was 16.52%, lower than ones from polysemic word which was 18.44%. By considering the relation between source word and target word, 1:many relation has the highest precision, followed by many:many, 1:1 and many:1, respectively.
Description: วิทยานิพนธ์ (อ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2551
Degree Name: อักษรศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: ภาษาศาสตร์
URI: http://cuir.car.chula.ac.th/handle/123456789/14274
Type: Thesis
Appears in Collections:Arts - Theses

Files in This Item:
File Description SizeFormat 
Prissana_ak.pdf2.05 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.