Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/52297
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorพีรพล เวทีกูลen_US
dc.contributor.authorธนภัทร์ คุ้มสุภาen_US
dc.contributor.otherจุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์en_US
dc.date.accessioned2017-03-03T03:04:49Z-
dc.date.available2017-03-03T03:04:49Z-
dc.date.issued2559en_US
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/52297-
dc.descriptionวิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2559en_US
dc.description.abstractนิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรเป็นวิธีการจำแนกประเภทข้อความที่มีประสิทธิภาพ วิธีการนี้ใช้การเรียนรู้ข้อความจากระดับตัวอักษร เมื่อนำมาใช้กับการจำแนกประเภทข้อความในภาษาไทยแล้ว จะทำให้สามารถจำแนกข้อความได้โดยไม่ต้องใช้ขั้นตอนการตัดคำ ทั้งนี้ นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรดั้งเดิมนั้นมีการจำกัดข้อความอยู่ที่ 1,014 ตัวอักษร ตัวอักษรส่วนเกินในข้อความตั้งต้นจะถูกตัดออกและไม่ถูกนำไปใช้ ในวิทยานิพนธ์ฉบับนี้จึงได้ทำการปรับปรุงโครงสร้างของนิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรให้สามารถรองรับข้อมูลความยาวใด ๆ โดยที่ยังคงใช้จำนวนพารามิเตอร์อื่น ๆ คงเดิม ผลการทดลองกับข้อมูลข่าวภาษาไทยแสดงให้เห็นว่า วิธีการที่เสนอไปนั้นสามารถเพิ่มความแม่นยำให้กับการจำแนกได้เมื่อเปรียบเทียบกับวิธีการดั้งเดิม นอกจากนี้ นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรที่เสนอนั้นยังให้ความแม่นยำในการจำแนกที่สูงกว่าวิธีการที่ได้รับความนิยมอื่น ๆ เช่น นาอีฟเบย์ แมกซิมัมเอนโทรปี และซัพพอร์ตเวกเตอร์แมชชีน โดยมีเพียงวิธีนิวรอลเน็ตเวิร์กคอนโวลูชันระดับคำเท่านั้น ที่ให้ความแม่นยำมากกว่าประมาณ 0.5% ทั้งนี้ การใช้นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรมีข้อดีคือประสิทธิภาพของของการจำแนกจะไม่ขึ้นอยู่กับประสิทธิภาพของการตัดคำen_US
dc.description.abstractalternativeA Character-level Convolutional Neural Network (Char-CNN) is an efficient method for text categorization. This method uses an input from characters, therefore, when applying it to categorize Thai text, a word segmentation step is not required. However, an original model of Char-CNN limits an input length to 1,014 characters. Any exceeding character is ignored. This thesis presents an improvement of Char-CNN which can accept any input length while it still uses the same number of parameters. Experiments show that our proposed model can produce a better accuracy than an original model. Moreover, the proposed technique outperforms many classical techniques e.g. Naïve Bayes, Maximum Entropy and Support Vector Machine. Note that there is only one technique, a word-level Convolutional Neural Network, that it performs better than our model about 0.5%. However, a Char-CNN has an advantage because its accuracy does not depend on a performance of word segmentation.en_US
dc.language.isothen_US
dc.publisherจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.relation.urihttp://doi.org/10.58837/CHULA.THE.2016.824-
dc.rightsจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.subjectนิวรัลเน็ตเวิร์ค (วิทยาการคอมพิวเตอร์)-
dc.subjectการประมวลผลข้อความ-
dc.subjectNeural networks (Computer science)-
dc.subjectText processing (Computer science)-
dc.titleการจำแนกประเภทข้อความในภาษาไทยโดยใช้นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรen_US
dc.title.alternativeText Categorization for Thai Corpus using Character-Level Convolutional Neural Networken_US
dc.typeThesisen_US
dc.degree.nameวิทยาศาสตรมหาบัณฑิตen_US
dc.degree.levelปริญญาโทen_US
dc.degree.disciplineวิทยาศาสตร์คอมพิวเตอร์en_US
dc.degree.grantorจุฬาลงกรณ์มหาวิทยาลัยen_US
dc.email.advisorPeerapon.V@chula.ac.th,peerapon.v@chula.ac.then_US
dc.identifier.DOI10.58837/CHULA.THE.2016.824-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
5770925021.pdf6.24 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.