Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/79928
Title: | Parameter-free outlier scoring using mass ratio variance for static and streaming data |
Other Titles: | การให้คะแนนจุดผิดปกติไร้พารามิเตอร์โดยใช้ความแปรปรวนของอัตราส่วนมวลสำหรับข้อมูลสถิตและสตรีมมิ่ง |
Authors: | Phichapop Changsakul |
Advisors: | Somjai Boonsiri Krung Sinapiromsaran |
Other author: | Chulalongkorn University. Faculty of Science |
Issue Date: | 2021 |
Publisher: | Chulalongkorn University |
Abstract: | Outlier detection is a significant problem that has been studied in a variety of research and real-world applications. However, little research has been conducted on unsupervised parameter-free outlier scoring. This thesis proposes Mass ratio variance-based Outlier Factor, or MOF, which is unsupervised parameter-free outlier scoring for static data. This algorithm calculates outlier scores based on the variance of mass ratio. The data points with high outlier scores are associated with outliers while the data points with low outlier scores are associated with normal data points. This thesis also proposes Streaming Mass ratio variance-based Outlier Factor or SMOF. This algorithm calculates outlier scores based on MOF and the non-overlapping sliding window model which keeps the dense data points by weighted random sampling making highly efficient storage. Extensive experiments have been conducted to evaluate the performance of MOF and SMOF using synthesized and real-world data sets. The experimental results show that they have better accuracy than the state-of-the-art outlier detection techniques. |
Other Abstract: | การตรวจจับจุดข้อมูลผิดปกติเป็นปัญหาสำคัญที่ได้รับการศึกษาวิจัยและการประยุกต์จริงกับข้อมูล อย่างไรก็ตามมีการวิจัยเพียงเล็กน้อยเกี่ยวกับการให้คะแนนค่าความผิดปกติที่ปราศจากพารามิเตอร์แบบไม่มีผู้สอน วิทยานิพนธ์นี้เสนอค่าปัจจัยความผิดปกติของความแปรปรวนอัตราส่วนมวลหรือเอ็มโอเอฟ ซึ่งเป็นการให้คะแนนค่าความผิดปกติที่ปราศจากพารามิเตอร์แบบไม่มีผู้สอนกับข้อมูลสถิต ขั้นตอนวิธีนี้คำนวณคะแนนความผิดปกติตามความแปรปรวนของอัตราส่วนของมวล จุดข้อมูลที่มีคะแนนผิดปกติสูงจะสัมพันธ์กับจุดผิดปกติ ในขณะที่จุดข้อมูลที่มีคะแนนผิดปกติต่ำจะสัมพันธ์กับจุดปกติ วิทยานิพนธ์นี้ยังเสนอขั้นตอนวิธีปัจจัยความผิดปกติของความแปรปรวนอัตราส่วนมวลในข้อมูลสตรีมมิ่งหรือเอสเอ็มโอเอฟ ขั้นตอนวิธีนี้จะคำนวณคะแนนความผิดปกติอิงตามเอ็มโอเอฟและแบบจำลองหน้าต่างบานเลื่อนที่ไม่ทับซ้อนกัน ซึ่งเก็บกลุ่มข้อมูลหนาแน่นโดยวิธีการสุ่มตัวอย่างตามน้ำหนัก ทำให้วิธีการจัดเก็บข้อมูลมีประสิทธิภาพสูง วิทยานิพนธ์นี้ได้ทำการทดลองที่ครอบคลุม หลากหลายกรณีเพื่อประเมินประสิทธิภาพของเอ็มโอเอฟและเอสเอ็มโอเอฟโดยใช้ชุดข้อมูลที่สังเคราะห์และใช้งานจริง ผลการทดลองแสดงให้เห็นว่าวิธีดังกล่าวมีความแม่นยำมากกว่าเทคนิคการตรวจจับจุดข้อมูลผิดปกติที่ล้ำสมัย |
Description: | Thesis (M.Sc.)--Chulalongkorn University, 2021 |
Degree Name: | Master of Science |
Degree Level: | Master's Degree |
Degree Discipline: | Computer Science and Information Technology |
URI: | http://cuir.car.chula.ac.th/handle/123456789/79928 |
URI: | http://doi.org/10.58837/CHULA.THE.2021.115 |
metadata.dc.identifier.DOI: | 10.58837/CHULA.THE.2021.115 |
Type: | Thesis |
Appears in Collections: | Sci - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
6278507823.pdf | 5.68 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.