Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/52297
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | พีรพล เวทีกูล | en_US |
dc.contributor.author | ธนภัทร์ คุ้มสุภา | en_US |
dc.contributor.other | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ | en_US |
dc.date.accessioned | 2017-03-03T03:04:49Z | - |
dc.date.available | 2017-03-03T03:04:49Z | - |
dc.date.issued | 2559 | en_US |
dc.identifier.uri | http://cuir.car.chula.ac.th/handle/123456789/52297 | - |
dc.description | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2559 | en_US |
dc.description.abstract | นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรเป็นวิธีการจำแนกประเภทข้อความที่มีประสิทธิภาพ วิธีการนี้ใช้การเรียนรู้ข้อความจากระดับตัวอักษร เมื่อนำมาใช้กับการจำแนกประเภทข้อความในภาษาไทยแล้ว จะทำให้สามารถจำแนกข้อความได้โดยไม่ต้องใช้ขั้นตอนการตัดคำ ทั้งนี้ นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรดั้งเดิมนั้นมีการจำกัดข้อความอยู่ที่ 1,014 ตัวอักษร ตัวอักษรส่วนเกินในข้อความตั้งต้นจะถูกตัดออกและไม่ถูกนำไปใช้ ในวิทยานิพนธ์ฉบับนี้จึงได้ทำการปรับปรุงโครงสร้างของนิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรให้สามารถรองรับข้อมูลความยาวใด ๆ โดยที่ยังคงใช้จำนวนพารามิเตอร์อื่น ๆ คงเดิม ผลการทดลองกับข้อมูลข่าวภาษาไทยแสดงให้เห็นว่า วิธีการที่เสนอไปนั้นสามารถเพิ่มความแม่นยำให้กับการจำแนกได้เมื่อเปรียบเทียบกับวิธีการดั้งเดิม นอกจากนี้ นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรที่เสนอนั้นยังให้ความแม่นยำในการจำแนกที่สูงกว่าวิธีการที่ได้รับความนิยมอื่น ๆ เช่น นาอีฟเบย์ แมกซิมัมเอนโทรปี และซัพพอร์ตเวกเตอร์แมชชีน โดยมีเพียงวิธีนิวรอลเน็ตเวิร์กคอนโวลูชันระดับคำเท่านั้น ที่ให้ความแม่นยำมากกว่าประมาณ 0.5% ทั้งนี้ การใช้นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษรมีข้อดีคือประสิทธิภาพของของการจำแนกจะไม่ขึ้นอยู่กับประสิทธิภาพของการตัดคำ | en_US |
dc.description.abstractalternative | A Character-level Convolutional Neural Network (Char-CNN) is an efficient method for text categorization. This method uses an input from characters, therefore, when applying it to categorize Thai text, a word segmentation step is not required. However, an original model of Char-CNN limits an input length to 1,014 characters. Any exceeding character is ignored. This thesis presents an improvement of Char-CNN which can accept any input length while it still uses the same number of parameters. Experiments show that our proposed model can produce a better accuracy than an original model. Moreover, the proposed technique outperforms many classical techniques e.g. Naïve Bayes, Maximum Entropy and Support Vector Machine. Note that there is only one technique, a word-level Convolutional Neural Network, that it performs better than our model about 0.5%. However, a Char-CNN has an advantage because its accuracy does not depend on a performance of word segmentation. | en_US |
dc.language.iso | th | en_US |
dc.publisher | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.relation.uri | http://doi.org/10.58837/CHULA.THE.2016.824 | - |
dc.rights | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.subject | นิวรัลเน็ตเวิร์ค (วิทยาการคอมพิวเตอร์) | - |
dc.subject | การประมวลผลข้อความ | - |
dc.subject | Neural networks (Computer science) | - |
dc.subject | Text processing (Computer science) | - |
dc.title | การจำแนกประเภทข้อความในภาษาไทยโดยใช้นิวรอลเน็ตเวิร์กคอนโวลูชันระดับตัวอักษร | en_US |
dc.title.alternative | Text Categorization for Thai Corpus using Character-Level Convolutional Neural Network | en_US |
dc.type | Thesis | en_US |
dc.degree.name | วิทยาศาสตรมหาบัณฑิต | en_US |
dc.degree.level | ปริญญาโท | en_US |
dc.degree.discipline | วิทยาศาสตร์คอมพิวเตอร์ | en_US |
dc.degree.grantor | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.email.advisor | Peerapon.V@chula.ac.th,peerapon.v@chula.ac.th | en_US |
dc.identifier.DOI | 10.58837/CHULA.THE.2016.824 | - |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
5770925021.pdf | 6.24 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.