DSpace Repository

การสรุปใจความสำคัญของข้อความแบบสกัดสำหรับข่าวท่องเที่ยวภาษาไทย

Show simple item record

dc.contributor.advisor ดวงดาว วิชาดากุล
dc.contributor.author ศรัญญา นาทองห่อ
dc.contributor.other จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
dc.date.accessioned 2021-09-22T23:25:45Z
dc.date.available 2021-09-22T23:25:45Z
dc.date.issued 2563
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/77083
dc.description วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2563
dc.description.abstract ปัจจุบันเทคโนโลยีทางด้านคอมพิวเตอร์มีความสำคัญต่อการดำเนินชีวิตประจำวันของมนุษย์เป็นอย่างมากและยังถือว่าเป็นเครื่องมือที่ใช้ในการอำนวยความสะดวกให้แก่มนุษย์มากมายโดยเฉพาะทางด้านการสื่อสารผ่านสังคมออนไลน์  เพื่อลดเวลาในการอ่านข่าวหรืออ่านบทความและข่าวออนไลน์ต่างๆ จากการวิจัยที่ผ่านมามีการศึกษาและพัฒนาการสรุปใจความสำคัญของภาษาไทยเป็นจำนวนมาก  ในงานวิจัยนี้ได้นำเสนอวิธีการสรุปใจความสำคัญจากข่าวการท่องเที่ยวภาษาไทย 2 วิธีคือการเลือกประโยคจากการจัดกลุ่มประโยคด้วยเคมีนและการเลือกประโยคด้วยวิธีหาคำสำคัญประโยคจากหัวข้อข่าว โดยมีการพัฒนาและสร้างคลังข้อมูลรายการคำประสมเพื่อช่วยเพิ่มประสิทธิภาพในการตัดคำ โดยการทดลองนี้ใช้ข้อมูลข่าวการท่องเที่ยวไทย ทั้งหมด 400 ข่าวสำหรับใช้ทดลองในการสรุปใจความสำคัญ และ 5,000 ข่าวสำหรับการสร้างคลังข้อมูลรายการคำประสม การวัดประสิทธิภาพของวิธีการที่นำเสนอ มีการวัดประสิทธิภาพการสรุปใจความสำคัญโดยการเปรียบเทียบผลจากการสรุปที่ได้จากผู้เชี่ยวชาญด้านภาษาไทยเทียบกับผลสรุปที่ได้จากวิธีการที่นำเสนอ จากงานวิจัยนี้ในขั้นตอนการสร้างคำประสมได้คำประสมทั้งหมด จำนวน 2,340 คำ ผลการทดลองพบว่าวิธีตัดคำด้วยคัตคำร่วมกับตัดคำประสมได้ผลดีกว่าการตัดคำจากคัตคำเพียงอย่างเดียว และการสรุปใจความสำคัญโดยใช้การคำนวณค่าน้ำหนักของคำสำคัญโดยหาค่าความถี่ของคำจากหัวข้อข่าวเพียงอย่างเดียวและเลือกประโยคเรียงลำดับจากผลรวมความถี่ของคำสำคัญจากหัวข้อข่าวมีประสิทธิภาพและความแม่นยำสูงสุดโดยมีค่าความแม่นยำ ค่าความระลึกและค่าวัดประสิทธิภาพอยู่ที่ 0.8097 0.8367 และ 0.8216 ตามลำดับและเมื่อใช้คัตคำร่วมกับการตัดคำแบบเอ็นแกรมโดยวิธีการสรุปใจความสำคัญแบบเดียวกันได้ค่าความแม่นยำ ค่าความระลึกและค่าวัดประสิทธิภาพอยู่ที่ 0.8119 0.8398 และ 0.8242 ตามลำดับที่อัตราการบีบอัดร้อยละ 20
dc.description.abstractalternative The daily newspaper has abundant data that users do not have enough time for reading them. It is difficult to identify relevant information to satisfy the information needed by users. Automatic summarization can reduce the problem of information overloading. Previously, many methodologies have been proposed for English and other languages. However, there were only a few research results in Thai text summarization due to the lack of a corpus in the Thai language and complicated grammar. In this research, we compared two methodologies of document summarization in Thai language. The first method is sentence selection by k-means and the second method is the sentence extraction function based on keyword score. In this research, we also created the 2,340 compound noun corpus from 5,000 news to improve the document summarization and collected 400 Thai travel news for evaluating the summarization. The sentence extraction function based on keyword score summation got the highest accuracy, recall and F1-score at 0.8097 0.8367 and 0.8216 respectively. Applying n-gram with the same summarization method, the accuracy, precision, and recall became 0.8119 0.8398 and 0.8242 with the 20% compression rate.
dc.language.iso th
dc.publisher จุฬาลงกรณ์มหาวิทยาลัย
dc.relation.uri http://doi.org/10.58837/CHULA.THE.2020.1139
dc.rights จุฬาลงกรณ์มหาวิทยาลัย
dc.subject.classification Engineering
dc.title การสรุปใจความสำคัญของข้อความแบบสกัดสำหรับข่าวท่องเที่ยวภาษาไทย
dc.title.alternative Extractive text summarization for Thai travel news
dc.type Thesis
dc.degree.name วิทยาศาสตรมหาบัณฑิต
dc.degree.level ปริญญาโท
dc.degree.discipline วิศวกรรมซอฟต์แวร์
dc.degree.grantor จุฬาลงกรณ์มหาวิทยาลัย
dc.identifier.DOI 10.58837/CHULA.THE.2020.1139


Files in this item

This item appears in the following Collection(s)

Show simple item record