Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/79953
Title: Thai tokenizer invariant classification based on bi-lstm and distilbert encoders
Other Titles: การจำแนกที่ไม่แปรเปลี่ยนตามโทเคนไนเซอร์ภาษาไทยบนฐานของตัวเข้ารหัสไบแอลเอสทีเอ็มและดิสทิลเบิร์ต
Authors: Noppadol Kongsumran
Advisors: Suphakant Phimoltares
Other author: Chulalongkorn University. Faculty of Science
Issue Date: 2021
Publisher: Chulalongkorn University
Abstract: Natural language processing (NLP) is a topic in artificial intelligence to teach computer to understand human language. Researchers can feed text of some particular language in any length and type such as characters, words, and sentences into the algorithm to extract a summarized context in terms of numbers. To accept a word array in Thai language, tokenization process is needed to split a text into words because each sentence is written consecutively without any space between words. In general, different tokenizers can produce different sets of words from a single sentence, resulting in uncontrolled accuracies in NLP and related tasks. In this research, a method to solve the different results from different Thai tokenizers is introduced by aligning tokenization results together in the similar direction using neural networks encoders. Bi-LSTM and DistilBERT with triplet hard loss are used to train and transform sets of words to data in a new domain where vectors of each similar sentence are significantly closer. Finally, twenty-eight classifiers are created using two types of encoders, seven different tokenizers, with and without using the proposed method for comparative and analysis purposes. To demonstrate that the proposed approach can be used as a pre-trained method for other tasks, the sentiment datasets are used to measure the classification accuracy and investigate similarities of results from all classifiers.
Other Abstract: การประมวลผลภาษาธรรมชาติเป็นหัวข้อในปัญญาประดิษฐ์เพื่อสอนคอมพิวเตอร์ให้เข้าใจภาษามนุษย์ นักวิจัยสามารถป้อนข้อความของภาษาที่เจาะจงในความยาวและประเภทใดๆ  เช่น อักขระ คำ และประโยคไปยังขั้นตอนวิธี เพื่อแยกบริบทที่สรุปในรูปของตัวเลข และเพื่อให้ยอมรับอาร์เรย์ของคำในภาษาไทย กระบวนการตัดคำจึงจำเป็นใช้แยกข้อความเป็นคำเนื่องจากประโยคแต่ละประโยคเขียนต่อเนื่องกันโดยไม่มีช่องว่างระหว่างคำ โดยทั่วไปแล้วตัวตัดคำที่ต่างกันสามารถสร้างชุดคำที่ต่างกันจากประโยคเดียวได้ ส่งผลให้ไม่สามารถควบคุมความแม่นยำในการประมวลผลภาษาธรรมชาติและปัญหาที่สัมพันธ์ได้ ในงานวิจัยนี้วิธีที่ใช้แก้ปัญหาผลลัพธ์ที่แตกต่างกันจากตัวตัดคำภาษาไทยที่แตกต่างกันได้ถูกนำเสนอโดยวางแนวผลการตัดคำให้อยู่ในทิศทางเดียวกันโดยใช้ตัวเข้ารหัสโครงข่ายประสาท ไบแอลเอสทีเอ็มและดิสทิลเบิร์ต ร่วมกับค่าสูญเสียถาวรทริปเลตใช้เพื่อฝึกและแปลงชุดคำให้เป็นข้อมูลในโดเมนใหม่ที่เวกเตอร์ของแต่ละประโยคที่คล้ายกันอยู่ใกล้กันมากขึ้น ในท้ายที่สุดตัวจำแนกจำนวนยี่สิบแปดตัวถูกสร้างขึ้นมาโดยใช้ตัวเข้ารหัสสองประเภท ตัวตัดคำเจ็ดตัว โดยใช้หรือไม่ใช้วิธีที่เสนอเพื่อการเปรียบเทียบและการวิเคราะห์ และเพื่อแสดงว่าวิธีที่เสนอสามารถใช้เป็นวิธีเริ่มฝึกฝนสำหรับงานอื่นๆ ได้ ชุดข้อมูลความรู้สึกถูกใช้เพื่อวัดความแม่นการจำแนกและตรวจสอบความเหมือนของผลที่ได้จากตัวจำแนกทั้งหมด
Description: Thesis (M.Sc.)--Chulalongkorn University, 2021
Degree Name: Master of Science
Degree Level: Master's Degree
Degree Discipline: Computer Science and Information Technology
URI: http://cuir.car.chula.ac.th/handle/123456789/79953
URI: http://doi.org/10.58837/CHULA.THE.2021.113
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2021.113
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
6378015423.pdf1.88 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.