Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/42308
Title: Proper length motif discovery for time series data using MDL principle
Other Titles: การค้นพบโมทีฟความยาวเหมาะสมสำหรับข้อมูลอนุกรมเวลาโดยใช้หลักการเอ็มดีแอล
Authors: Sorrachai Yingchareonthawornchai
Advisors: Chotirat Ratanamahatana
Other author: Chulalongkorn University. Faculty of Engineering
Advisor's Email: Chotirat.R@Chula.ac.th
Subjects: Time-series analysis
Data mining
การวิเคราะห์อนุกรมเวลา
ดาต้าไมนิง
Issue Date: 2012
Publisher: Chulalongkorn University
Abstract: As one of the most essential data mining tasks, finding of frequently occurring patterns, i.e., motif discovery, has drawn a lot of attention in the past decade. Despite successes in speedup of motif discovery, most of the existing algorithms still require predefined parameters. The critical and most cumbersome one is time series motif length since it is difficult to manually determine the proper length of the motifs—even for the domain experts. In addition, with variability in the motif lengths, ranking among these motifs becomes another major problem, not to mention possible redundancy of sub-motifs. Ultimately, running all possible ranges of parameter is computationally expensive. There are some attempts to deal with the parameter issue. However, they cannot truly eliminate parameters. There is a work that is considered the first parameter-free motif discovery, but it is not as efficient due to scalability problem and solution quality. These problems inspired this work to introduce a novel parameter-free time series motif discovery based on MDL (Minimum Description Length) principle. This work requires no parameter as input. The output is ranked classes of motifs or “K-compression Motif,” that are based on MDL principle. The experiments have been designed to correspond to the objectives: parameter-freeness, correctness, and speed. The proposed algorithm manages to discover proper length of motifs with consistently high accuracy. In addition, the proposed algorithm manages to discover “unexpected” motifs of time series. As for speed, the proposed algorithm is a few magnitudes faster than previous work.
Other Abstract: การค้นพบโมทีฟสำหรับข้อมูลอนุกรมเวลาเป็นสาขาหนึ่งของงานวิจัยการทำเหมืองข้อมูลอนุกรมเวลาซึ่งได้รับความสนใจเป็นอย่างมากในทศวรรษที่ผ่านมา งานวิจัยด้านการค้นพบโมทีฟที่ผ่านมาประสบความสำเร็จในการค้นพบโมทีฟได้อย่างรวดเร็ว แต่งานวิจัยเหล่านั้นจะต้องกำหนดค่าของพารามิเตอร์ต่างๆ พารามิเตอร์หนึ่งที่สำคัญอย่างยิ่งและยากในการกำจัดคือความยาวโมทีฟที่จะค้นหา เพราะความยาวที่เหมาะสมของโมทีฟนั้นหาได้ยากแม้กระทั่งสำหรับผู้เชี่ยวชาญในสาขานั้นๆ ก็ตาม ถึงแม้ผู้ใช้จะสามารถระบุค่าความยาวโมทีฟมากกว่าหนึ่งค่าได้ การนำโมทีฟที่ได้ในได้ละความยาวมาจัดอันดับเพื่อนำไปใช้งานจริงนั้นเป็นอีกปัญหาที่ท้าทายเนื่องจากโมทีฟที่ได้อาจเหลื่อมล้ำและซ้ำซ้อนกันได้ และยิ่งกว่านั้นการเลือกทุกความยาวที่เป็นไปได้สำหรับการดำเนินอัลกอริทึมนั้นทำให้การทำงานช้ามาก อย่างไรก็ตามมีงานวิจัยน้อยมากที่ได้กล่าวถึงปัญหาความยาวของโมทีฟและนำเสนออัลกอริทึมในการแก้ปัญหา แต่งานเหล่านั้นไม่สามารถกำจัดพารามิเตอร์ไปได้ทั้งหมด มีอีกงานวิจัยที่สามารถกำจัดพารามิเตอร์ทั้งหมดได้ แต่มีปัญหาทางด้านความสามารถในการปรับขนาดได้ในกรณีข้อมูลที่มีขนาดใหญ่ และคุณภาพของโมทีฟที่ค้นพบ ปัญหาข้างต้นเป็นแรงบันดาลใจของการค้นพบโมทีฟความยาวเหมาะสมที่ปราศจากพารามิเตอร์โดยใช้หลักการเอ็มดีแอล (ความยาวเชิงการพรรณาน้อยสุด) โดยให้ผลลัพธ์สุดท้ายเป็นเซตของ “การบีบอัดโมทีฟ” จากหลักการเอ็มดีแอล โดยมีวิธีการวัดคุณภาพของผลลัพธ์โมทีฟและประสิทธิภาพของอัลกอริทึมที่ชัดเจนตามวัตถุประสงค์อันได้แก่ ความปราศจากพารามิเตอร์ ความถูกต้อง และความเร็ว อัลกอริทึมที่นำเสนอนั้นสามารถค้นพบโมทีฟที่ความยาวเหมาะสมได้โดยมีความแม่นยำสูง ยิ่งกว่านั้นอัลกอริทึมยังสามารถค้นพบโมทีฟที่นอกเหนือความคาดหมายได้ และงานนี้เร็วกว่างานก่อนหน้าเป็นอันดับขนาดเล็กน้อย
Description: Thesis (M.Eng.)--Chulalongkorn University, 2012
Degree Name: Master of Engineering
Degree Level: Master's Degree
Degree Discipline: Computer Engineering
URI: http://cuir.car.chula.ac.th/handle/123456789/42308
URI: http://doi.org/10.14457/CU.the.2012.505
metadata.dc.identifier.DOI: 10.14457/CU.the.2012.505
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Sorrachai_yi.pdf2.17 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.