Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/20692
Title: การรู้จำชื่อเฉพาะภาษาไทย: การศึกษาชื่อผลิตภัณฑ์ในข่าวเศรษฐกิจ
Other Titles: The named entity recognition : a study of product names in economic news
Authors: ณัฐดาพร เลิศชีวะ
Advisors: วิโรจน์ อรุณมานะกุล
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์
Advisor's Email: Wirote.A@Chula.ac.th
Subjects: ชื่อตราผลิตภัณฑ์
การประมวลผลภาษาธรรมชาติ (คอมพิวเตอร์)
Brand name products
Natural language processing ‪(Computer science)‬
Issue Date: 2553
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: วิเคราะห์รูปแบบชื่อผลิตภัณฑ์ภาษาไทยที่ปรากฏในข่าวเศรษฐกิจ โดยมีสมมติฐานว่าผลที่ได้จากงานวิจัยจะเป็นประโยชน์ต่อการระบุขอบเขต และประเภทของชื่อผลิตภัณฑ์ในงานการรู้จำชื่อเฉพาะภาษาไทย การวิจัยนี้ได้เก็บรวบรวมชื่อผลิตภัณฑ์ 2,463 ชื่อ จากคลังข้อมูลข่าวเศรษฐกิจภาษาไทย 178,474 คำ ผลการวิจัยแสดงให้เห็นว่า ชื่อผลิตภัณฑ์ภาษาไทยประกอบด้วยองค์ประกอบต่างๆ ดังนี้ คำบอกชนิดผลิตภัณฑ์ คำบ่งบอกชื่อตราสินค้า ชื่อตราสินค้า คำบ่งบอกชื่อประเภทของผลิตภัณฑ์ และชื่อประเภทของผลิตภัณฑ์ โดยที่ชื่อตราสินค้าและชื่อประเภทของผลิตภัณฑ์เป็นองค์ประกอบหลักของชื่อผลิตภัณฑ์ การปรากฏร่วมกันขององค์ประกอบต่างๆ ทำให้เกิดรูปแบบชื่อผลิตภัณฑ์ 32 รูปแบบ ซึ่งแบ่งได้เป็น 4 กลุ่มคือ ชื่อผลิตภัณฑ์ที่ปรากฏแต่คำหลัก (ชื่อตราสินค้าหรือชื่อประเภทของผลิตภัณฑ์) คำหลักปรากฏอยู่ตำแหน่งหน้าสุด คำหลักปรากฏอยู่ที่ตำแหน่งตรงกลาง และคำหลักปรากฏอยู่ตำแหน่งท้ายสุด จากการศึกษาพบว่า ชื่อผลิตภัณฑ์ที่ปรากฏแต่คำหลัก และคำหลักปรากฏอยู่ตำแหน่งท้ายสุดเป็นรูปแบบที่ปรากฏใช้มากที่สุด คือปรากฏพบเป็นจำนวน 43.32% และ 41.41% ตามลำดับ นอกจากนี้การศึกษาเรื่องคำปรากฏร่วมแสดงให้เห็นว่า ผลการศึกษายังไม่สามารถนำไปใช้ระบุตำแหน่งชื่อผลิตภัณฑ์ได้ดีมากนัก เมื่อมีการอ้างถึงชื่อผลิตภัณฑ์เดียวกันสองครั้งในข่าว รูปแบบชื่อผลิตภัณฑ์ที่พบส่วนใหญ่จะเป็นรูปแบบเดียวกัน หรือรูปแบบการลดองค์ประกอบ สำหรับชื่อผลิตภัณฑ์ที่มีการอ้างถึงในข่าวมากกว่าสองครั้ง มักใช้รูปแบบชื่อผลิตภัณฑ์ที่สลับไปมาตามบริบท การระบุประเภทของผลิตภัณฑ์สามารถใช้องค์ประกอบภายนอกหรือองค์ประกอบภายในชื่อผลิตภัณฑ์ ที่ดูเหมือนว่ามีประสิทธิภาพในการระบุประเภทผลิตภัณฑ์ได้มากกว่า องค์ประกอบภายนอกหรือบริบทโดยรอบชื่อผลิตภัณฑ์
Other Abstract: To analyze patterns of Thai product names used in economic news. The result is expected to be useful for identifying the boundary and the type of product names in a Thai named entity recognition task. A corpus of 178,474 words with 2,463 product names collected from Thai economic news is used in this study. The result shows that Thai product names are composed of the following components generic nouns, brand name indicators, brand names, product type indicators, and product types. Brand names and product types are the core part of the product name. The combination of these components results in 32 patterns of Thai product names. These patterns can be categorized into 4 groups, head only (brand name or product type), head-initial, head-centre, and head-final. Head only and head final are the most frequently used patterns, which account for 43.32% and 41.41% respectively. The study on collocation of Thai product names indicates that collocates are not much useful for identifying product name boundaries. When the same product names are mentioned twice in the news, it is likely to be the same or in a reduced pattern. When the name is used more than twice, the pattern is likely to be changed back and forth depending on the context. In identifying the product type, the use of external evidences, or the components inside the name, seems to more useful for identifying product type than the external evidences, or the contexts surrounding the product names.
Description: วิทยานิพนธ์ (อ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2553
Degree Name: อักษรศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: ภาษาศาสตร์
URI: http://cuir.car.chula.ac.th/handle/123456789/20692
URI: http://doi.org/10.14457/CU.the.2010.2206
metadata.dc.identifier.DOI: 10.14457/CU.the.2010.2206
Type: Thesis
Appears in Collections:Arts - Theses

Files in This Item:
File Description SizeFormat 
nattadaporn_le.pdf3.06 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.