Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/74192
Title: | การตรวจจับหัวข้ออัตโนมัติบนข้อมูลทวิตเตอร์โดยการใช้คุณลักษณะจากตัวชี้วัดของหุ้น |
Other Titles: | Automatic Topic Detection on Twitter Data Using Stock Indicator Based Features |
Authors: | เอกภพ วีระสกุลวงศ์ |
Advisors: | พีรพล เวทีกูล อภิวดี ปิยธรรมรงค์ |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Advisor's Email: | Peerapon.V@Chula.ac.th ไม่มีข้อมูล |
Subjects: | ทวิตเตอร์ คำและวลี การสื่อสารด้วยระบบดิจิทัล Terms and phrases Digital communications |
Issue Date: | 2561 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | สื่อสังคมออนไลน์เป็นหนึ่งในการสื่อสารที่สำคัญและรวดเร็วที่สุดในปัจจุบัน การ สังเกตการณ์ข้อมูลทวิตเตอร์ทำให้สามารถตรวจจับเหตุการณ์ที่กำลังเป็นที่สนใจแบบใกล้ทันกาล หรือหัวข้อเกิดใหม่ได้ โดยหัวข้อเกิดใหม่แต่ละหัวข้อจะประกอบด้วยกลุ่มของคำที่เกี่ยวข้องหรือ กลุ่มของคำเกิดใหม่ งานวิจัยหลายงานนำเสนอวิธีการตรวจจับกลุ่มคำเหล่านี้โดยใช้คุณลักษณะที่ สร้างจากสถิติของคำที่อยู่ในข้อความทวิตเตอร์ ซึ่งบางคุณลักษณะมีความคล้ายคลึงกับตัวชี้วัดของ หุ้น แต่อย่างไรก็ตามวิธีเหล่านี้ใช้เพียงคุณลักษณะเดียว ซึ่งเป็นการยากที่จะตรวจจับคำเกิดใหม่ได้ หลากหลายรูปแบบ แม้จะมีบางงานวิจัยพยายามใช้หลายคุณลักษณะด้วยตัวจำแนกประเภท แต่ ด้วยข้อจำกัดของการสร้างตัวแปรผลเฉลยของข้อมูลที่ใช้ในการสอนตัวจำแนกประเภท ทำให้ยาก ต่อการนำไปใช้ นอกจากนี้ในงานวิจัยที่เกี่ยวข้องกับการตรวจจับหัวข้อเกิดใหม่ ไม่มีชุดผลเฉลยที่ ชัดเจน และไม่มีการวัดประสิทธิภาพที่เป็นมาตรฐาน ในงานวิจัยนี้จึงเสนอการตรวจจับหัวข้อเกิด ใหม่ด้วยคุณลักษณะจากตัวชี้วัดของหุ้นที่นิยมใช้ในปัจจุบันและมีการปรับปรุงคุณลักษณะดังกล่าว ให้ดียิ่งขึ้น อีกทั้งตัวจำแนกที่ได้ประสิทธิภาพสูงสุด ซึ่งได้แก่ป่าไม้แบบสุ่ม ถูกนำมาใช้ในการ ตรวจจับคำเกิดใหม่โดยไม่มีข้อจำกัดในการสร้างตัวแปรผลเฉลยของข้อมูล สุดท้ายเพื่อให้สามารถ วัดประสิทธิภาพในการตรวจจับคำและหัวข้อเกิดใหม่ จึงทำการสร้างชุดผลเฉลยรายวันและใช้ชุด ผลเฉลยดังกล่าวในการวัดประสิทธิภาพด้วยมาตรวัดประสิทธิภาพของหัวข้อแบบแมโครที่สามารถ วัดประสิทธิภาพในแง่มุมของคำและหัวข้อเกิดใหม่พร้อมกัน จากการทดลองพบว่าประสิทธิภาพ ของวิธีที่นำเสนอในงานวิจัยนี้ สามารถตรวจจับคำและหัวข้อเกิดใหม่ได้อย่างมีประสิทธิภาพดีกว่า วิธีการในปัจจุบัน ได้แก่ SigniTrend และ TopicSketch นอกจากนี้ยังพบว่าวิธีที่นำเสนอใน งานวิจัยนี้สามารถตรวจจับคำและหัวข้อเกิดใหม่ได้ก่อนงานวิจัยอื่น |
Other Abstract: | Social media is one of the most impactful and fastest communication methods. By monitoring Twitter streams, we are able to detect an interesting event, “emerging topic”, in near real-time. Each emerging topic contains a group of related keywords or “emerging keyword”. Some prior attempts aim to detect topics on Twitter based on word’s statistic, where some of them are similar to stock indicators. However, they only use univariate feature. Therefore, it is hard to detect various types of emerging topics. Although some research uses multivariate features with a classifier, its use case is very limited due to constraints in the data labeling process. Moreover, there are no standard answer set and no standard performance evaluation method in this research field. In this research, we propose an algorithm to detect emerging topics on Twitter streams. Many stock indicators are applied and improved. To capture event patterns, various classifiers are compared and RandomForest is selected. Moreover, there are no limitations in the data labeling process. We create a daily answer set and new standard evaluation metric called “Macro topic measurement” which can evaluate the performance of both keyword and topic detection. The experiment shows that our method outperforms other baselines: SigniTrend, and TopicSketch. Furthermore, our method can detect emerging keyword earlier than other baselines. |
Description: | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2561 |
Degree Name: | วิศวกรรมศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิศวกรรมคอมพิวเตอร์ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/74192 |
URI: | http://doi.org/10.58837/CHULA.THE.2018.1249 |
metadata.dc.identifier.DOI: | 10.58837/CHULA.THE.2018.1249 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
En_5870284521_Ekapop Ver.pdf | 2.44 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.