Abstract:
งานวิจัยนี้มีจุดมุ่งหมายเพื่อสร้างคลังศัพท์บอกความรู้สึกจากบทวิจารณ์สินค้าและบริการออนไลน์ในภาษาไทยโดยใช้วิธีการประมวลภาษาธรรมชาติตามแนวทางการวิจัยด้านภาษาศาสตร์คอมพิวเตอร์ บทวิจารณ์ที่เลือกใช้มาจาก 3 แหล่งข้อมูล ได้แก่ บทวิจารณ์โรงแรมของ Agoda บทวิจารณ์ภาพยนตร์ของ MajorCineplex และบทวิจารณ์แอปพลิเคชันโทรศัพท์มือถือของ Microsoft ซึ่งมีการให้คะแนนร่วมกับการเขียนเนื้อหาบทวิจารณ์ การวิเคราะห์หาคำบอกความรู้สึกจากเนื้อหาบทวิจารณ์อาศัยสมมติฐานว่าคำบอกความรู้สึกจะเกิดร่วมกับคำบอกลักษณะสินค้าซึ่งเป็นคำในกลุ่มคำนามที่มีความถี่การปรากฏสูง การระบุขั้วความรู้สึกบวกลบของคำบอกความรู้สึกจะดูจากค่า tf-idf เชิงบวกและเชิงลบซึ่งคำนวณจากความถี่การปรากฏในกลุ่มข้อมูลบทวิจารณ์ที่มีการให้คะแนนเชิงบวกและเชิงลบตามลำดับ กระบวนการรวบรวมคำบอกความรู้สึกในงานวิจัยนี้ทดลองใช้วิธีการต่างๆ ในสามขั้นตอน คือ การกำหนดชนิดคำบอกความรู้สึก การกำหนดค่าขั้นต่ำของลำดับความถี่ของคำบอกลักษณะสินค้า และการกำหนดค่า tf-idf ขั้นต่ำในการคัดเลือกคำบอกความรู้สึกขั้วบวกและขั้วลบ ผลที่ได้คือชุดคำบอกความรู้สึกที่แตกต่างกัน 112 ชุดจากแต่ละโดเมน จากนั้นชุดคำทั้งหมดจะนำไปทดสอบผลการวิเคราะห์ความรู้สึกเพื่อคัดเลือกชุดคำที่ดีที่สุดสำหรับการสร้างคลังศัพท์ ชุดคำบอกความรู้สึกที่ให้ผลการวิเคราะห์ดีที่สุดมาจากการใช้คำในกลุ่มคำกริยา คำคุณศัพท์ และคำวิเศษณ์เป็นคำบอกความรู้สึก เลือกใช้คำบอกลักษณะที่มีลำดับเปอร์เซ็นต์ไทล์ของความถี่ตั้งแต่ 90 ขึ้นไป และคัดเลือกคำบอกความรู้สึกที่มีผลรวมของค่า tf-idf เชิงบวกและลบมากกว่าหรือเท่ากับ 0 หลังจากนั้นคำบอกความรู้สึกในคลังศัพท์ที่ได้จากแต่ละโดเมนจะนำมาจำแนกประเภทเป็นคำบอกความรู้สึกแบบเจาะจงโดเมนและแบบไม่เจาะจงโดเมน รายการคำที่ได้จะนำมาวิเคราะห์โดยเปรียบเทียบการปรากฏในเนื้อหาบทวิจารณ์โดเมนต่างๆ เพื่อศึกษาความแตกต่างของการเลือกใช้คำบอกความรู้สึกในบทวิจารณ์สินค้าของแต่ละโดเมน ผลการวิเคราะห์พบว่าการใช้คำบอกความรู้สึกของผู้เขียนบทวิจารณ์จะเปลี่ยนไปตามความคาดหวังของผู้ใช้สินค้าหรือบริการและสไตล์การเขียนบทวิจารณ์ในโดเมนนั้นๆ นอกจากนี้การวิเคราะห์ข้อมูลบทวิจารณ์ยังแสดงให้เห็นถึงปัจจัยสำคัญต่างๆ ที่ส่งผลต่อรายการคำบอกความรู้สึกในคลังศัพท์ที่ได้จากงานวิจัยนี้ ซึ่งอาจนำไปใช้ปรับปรุงวิธีการสร้างคลังศัพท์ให้ดีขึ้นได้ ประกอบด้วย การปรากฏของคำบอกลักษณะสินค้า ช่วงคะแนนของบทวิจารณ์เชิงบวกและเชิงลบ แรงจูงใจในการเขียนบทวิจารณ์ และการเลือกใช้สินค้าหรือบริการในโดเมนต่างๆ