Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/77083
Title: | การสรุปใจความสำคัญของข้อความแบบสกัดสำหรับข่าวท่องเที่ยวภาษาไทย |
Other Titles: | Extractive text summarization for Thai travel news |
Authors: | ศรัญญา นาทองห่อ |
Advisors: | ดวงดาว วิชาดากุล |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Issue Date: | 2563 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | ปัจจุบันเทคโนโลยีทางด้านคอมพิวเตอร์มีความสำคัญต่อการดำเนินชีวิตประจำวันของมนุษย์เป็นอย่างมากและยังถือว่าเป็นเครื่องมือที่ใช้ในการอำนวยความสะดวกให้แก่มนุษย์มากมายโดยเฉพาะทางด้านการสื่อสารผ่านสังคมออนไลน์ เพื่อลดเวลาในการอ่านข่าวหรืออ่านบทความและข่าวออนไลน์ต่างๆ จากการวิจัยที่ผ่านมามีการศึกษาและพัฒนาการสรุปใจความสำคัญของภาษาไทยเป็นจำนวนมาก ในงานวิจัยนี้ได้นำเสนอวิธีการสรุปใจความสำคัญจากข่าวการท่องเที่ยวภาษาไทย 2 วิธีคือการเลือกประโยคจากการจัดกลุ่มประโยคด้วยเคมีนและการเลือกประโยคด้วยวิธีหาคำสำคัญประโยคจากหัวข้อข่าว โดยมีการพัฒนาและสร้างคลังข้อมูลรายการคำประสมเพื่อช่วยเพิ่มประสิทธิภาพในการตัดคำ โดยการทดลองนี้ใช้ข้อมูลข่าวการท่องเที่ยวไทย ทั้งหมด 400 ข่าวสำหรับใช้ทดลองในการสรุปใจความสำคัญ และ 5,000 ข่าวสำหรับการสร้างคลังข้อมูลรายการคำประสม การวัดประสิทธิภาพของวิธีการที่นำเสนอ มีการวัดประสิทธิภาพการสรุปใจความสำคัญโดยการเปรียบเทียบผลจากการสรุปที่ได้จากผู้เชี่ยวชาญด้านภาษาไทยเทียบกับผลสรุปที่ได้จากวิธีการที่นำเสนอ จากงานวิจัยนี้ในขั้นตอนการสร้างคำประสมได้คำประสมทั้งหมด จำนวน 2,340 คำ ผลการทดลองพบว่าวิธีตัดคำด้วยคัตคำร่วมกับตัดคำประสมได้ผลดีกว่าการตัดคำจากคัตคำเพียงอย่างเดียว และการสรุปใจความสำคัญโดยใช้การคำนวณค่าน้ำหนักของคำสำคัญโดยหาค่าความถี่ของคำจากหัวข้อข่าวเพียงอย่างเดียวและเลือกประโยคเรียงลำดับจากผลรวมความถี่ของคำสำคัญจากหัวข้อข่าวมีประสิทธิภาพและความแม่นยำสูงสุดโดยมีค่าความแม่นยำ ค่าความระลึกและค่าวัดประสิทธิภาพอยู่ที่ 0.8097 0.8367 และ 0.8216 ตามลำดับและเมื่อใช้คัตคำร่วมกับการตัดคำแบบเอ็นแกรมโดยวิธีการสรุปใจความสำคัญแบบเดียวกันได้ค่าความแม่นยำ ค่าความระลึกและค่าวัดประสิทธิภาพอยู่ที่ 0.8119 0.8398 และ 0.8242 ตามลำดับที่อัตราการบีบอัดร้อยละ 20 |
Other Abstract: | The daily newspaper has abundant data that users do not have enough time for reading them. It is difficult to identify relevant information to satisfy the information needed by users. Automatic summarization can reduce the problem of information overloading. Previously, many methodologies have been proposed for English and other languages. However, there were only a few research results in Thai text summarization due to the lack of a corpus in the Thai language and complicated grammar. In this research, we compared two methodologies of document summarization in Thai language. The first method is sentence selection by k-means and the second method is the sentence extraction function based on keyword score. In this research, we also created the 2,340 compound noun corpus from 5,000 news to improve the document summarization and collected 400 Thai travel news for evaluating the summarization. The sentence extraction function based on keyword score summation got the highest accuracy, recall and F1-score at 0.8097 0.8367 and 0.8216 respectively. Applying n-gram with the same summarization method, the accuracy, precision, and recall became 0.8119 0.8398 and 0.8242 with the 20% compression rate. |
Description: | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2563 |
Degree Name: | วิทยาศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิศวกรรมซอฟต์แวร์ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/77083 |
URI: | http://doi.org/10.58837/CHULA.THE.2020.1139 |
metadata.dc.identifier.DOI: | 10.58837/CHULA.THE.2020.1139 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
5970962421.pdf | 5.14 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.