Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/42308
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorChotirat Ratanamahatana-
dc.contributor.authorSorrachai Yingchareonthawornchai-
dc.contributor.otherChulalongkorn University. Faculty of Engineering-
dc.date.accessioned2014-05-06T03:23:40Z-
dc.date.available2014-05-06T03:23:40Z-
dc.date.issued2012-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/42308-
dc.descriptionThesis (M.Eng.)--Chulalongkorn University, 2012en_US
dc.description.abstractAs one of the most essential data mining tasks, finding of frequently occurring patterns, i.e., motif discovery, has drawn a lot of attention in the past decade. Despite successes in speedup of motif discovery, most of the existing algorithms still require predefined parameters. The critical and most cumbersome one is time series motif length since it is difficult to manually determine the proper length of the motifs—even for the domain experts. In addition, with variability in the motif lengths, ranking among these motifs becomes another major problem, not to mention possible redundancy of sub-motifs. Ultimately, running all possible ranges of parameter is computationally expensive. There are some attempts to deal with the parameter issue. However, they cannot truly eliminate parameters. There is a work that is considered the first parameter-free motif discovery, but it is not as efficient due to scalability problem and solution quality. These problems inspired this work to introduce a novel parameter-free time series motif discovery based on MDL (Minimum Description Length) principle. This work requires no parameter as input. The output is ranked classes of motifs or “K-compression Motif,” that are based on MDL principle. The experiments have been designed to correspond to the objectives: parameter-freeness, correctness, and speed. The proposed algorithm manages to discover proper length of motifs with consistently high accuracy. In addition, the proposed algorithm manages to discover “unexpected” motifs of time series. As for speed, the proposed algorithm is a few magnitudes faster than previous work.en_US
dc.description.abstractalternativeการค้นพบโมทีฟสำหรับข้อมูลอนุกรมเวลาเป็นสาขาหนึ่งของงานวิจัยการทำเหมืองข้อมูลอนุกรมเวลาซึ่งได้รับความสนใจเป็นอย่างมากในทศวรรษที่ผ่านมา งานวิจัยด้านการค้นพบโมทีฟที่ผ่านมาประสบความสำเร็จในการค้นพบโมทีฟได้อย่างรวดเร็ว แต่งานวิจัยเหล่านั้นจะต้องกำหนดค่าของพารามิเตอร์ต่างๆ พารามิเตอร์หนึ่งที่สำคัญอย่างยิ่งและยากในการกำจัดคือความยาวโมทีฟที่จะค้นหา เพราะความยาวที่เหมาะสมของโมทีฟนั้นหาได้ยากแม้กระทั่งสำหรับผู้เชี่ยวชาญในสาขานั้นๆ ก็ตาม ถึงแม้ผู้ใช้จะสามารถระบุค่าความยาวโมทีฟมากกว่าหนึ่งค่าได้ การนำโมทีฟที่ได้ในได้ละความยาวมาจัดอันดับเพื่อนำไปใช้งานจริงนั้นเป็นอีกปัญหาที่ท้าทายเนื่องจากโมทีฟที่ได้อาจเหลื่อมล้ำและซ้ำซ้อนกันได้ และยิ่งกว่านั้นการเลือกทุกความยาวที่เป็นไปได้สำหรับการดำเนินอัลกอริทึมนั้นทำให้การทำงานช้ามาก อย่างไรก็ตามมีงานวิจัยน้อยมากที่ได้กล่าวถึงปัญหาความยาวของโมทีฟและนำเสนออัลกอริทึมในการแก้ปัญหา แต่งานเหล่านั้นไม่สามารถกำจัดพารามิเตอร์ไปได้ทั้งหมด มีอีกงานวิจัยที่สามารถกำจัดพารามิเตอร์ทั้งหมดได้ แต่มีปัญหาทางด้านความสามารถในการปรับขนาดได้ในกรณีข้อมูลที่มีขนาดใหญ่ และคุณภาพของโมทีฟที่ค้นพบ ปัญหาข้างต้นเป็นแรงบันดาลใจของการค้นพบโมทีฟความยาวเหมาะสมที่ปราศจากพารามิเตอร์โดยใช้หลักการเอ็มดีแอล (ความยาวเชิงการพรรณาน้อยสุด) โดยให้ผลลัพธ์สุดท้ายเป็นเซตของ “การบีบอัดโมทีฟ” จากหลักการเอ็มดีแอล โดยมีวิธีการวัดคุณภาพของผลลัพธ์โมทีฟและประสิทธิภาพของอัลกอริทึมที่ชัดเจนตามวัตถุประสงค์อันได้แก่ ความปราศจากพารามิเตอร์ ความถูกต้อง และความเร็ว อัลกอริทึมที่นำเสนอนั้นสามารถค้นพบโมทีฟที่ความยาวเหมาะสมได้โดยมีความแม่นยำสูง ยิ่งกว่านั้นอัลกอริทึมยังสามารถค้นพบโมทีฟที่นอกเหนือความคาดหมายได้ และงานนี้เร็วกว่างานก่อนหน้าเป็นอันดับขนาดเล็กน้อยen_US
dc.language.isoenen_US
dc.publisherChulalongkorn Universityen_US
dc.relation.urihttp://doi.org/10.14457/CU.the.2012.505-
dc.rightsChulalongkorn Universityen_US
dc.subjectTime-series analysisen_US
dc.subjectData miningen_US
dc.subjectการวิเคราะห์อนุกรมเวลาen_US
dc.subjectดาต้าไมนิงen_US
dc.titleProper length motif discovery for time series data using MDL principleen_US
dc.title.alternativeการค้นพบโมทีฟความยาวเหมาะสมสำหรับข้อมูลอนุกรมเวลาโดยใช้หลักการเอ็มดีแอลen_US
dc.typeThesisen_US
dc.degree.nameMaster of Engineeringen_US
dc.degree.levelMaster's Degreeen_US
dc.degree.disciplineComputer Engineeringen_US
dc.degree.grantorChulalongkorn Universityen_US
dc.email.advisorChotirat.R@Chula.ac.th-
dc.identifier.DOI10.14457/CU.the.2012.505-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Sorrachai_yi.pdf2.17 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.