Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/19042
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorAthasit Surarerks-
dc.contributor.authorKomate Amphawan-
dc.contributor.otherChulalongkorn University. Faculty of Engineering-
dc.date.accessioned2012-04-06T14:08:34Z-
dc.date.available2012-04-06T14:08:34Z-
dc.date.issued2010-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/19042-
dc.descriptionThesis (D.Eng)--Chulalongkorn University, 2010en
dc.description.abstractAssociation rule based on support-confident framework is an important task in data mining community. However, the occurrence frequency of a pattern may not be sufficient criterion for mining meaningful patterns. The occurrence behavior can be revealed as an important key in several applications. A pattern is a regular pattern if it regularly occurs in a user-given period (regularity threshold). To mine regular itemsets, a support threshold is used to filter some regular itemsets. However, in practice, it is often difficult for users to provide an appropriate support threshold. Indeed, a too small support threshold could yield a number of regular-frequent itemsets impractically large while a too large threshold could yield very few or no regular-frequent itemsets. Therefore, the use of a support threshold tends to produce a large number of regular-frequent itemsets and it could be better to ask for the number of desired results. Currently, from the deep survey, there is no existing approach permitting users to specify the number of regular-frequent itemsets to be mined. Therefore, a new approach allowing the users to control the number of results (i.e. k regular itemsets with the highest supports) is presented. There are several techniques proposed in this dissertation to mine this kind of itemsets: (i) a single-scan approach, (ii) a best-first search strategy used to prune the search space, (iii) the partitioning and estimation techniques assisting in reducing unnecessary computational costs, and (iv) a new concise representation helping to save runtime and memory. From the performance study, the proposed approaches are efficient and scalable in terms of time and memory for small and large values of desired results on sparse and dense datasets.en
dc.description.abstractalternativeการหากฎความสัมพันธ์ภายใต้ค่าสนับสนุนและค่าความเชื่อมั่นที่ผู้ใช้ระบุเป็นงานสำคัญของกลุ่มวิจัยด้านการทำเหมืองข้อมูลอย่างไรก็ตามความถี่ของการเกิดข้อมูลในรูปแบบต่างๆอาจไม่เพียงพอที่จะเป็นเงื่อนไขของการหารูปแบบที่มีความหมายดังนั้นลักษณะการเกิดของรูปแบบที่มีความสัมพันธ์กันจึงเป็นประเด็นสำคัญของงานในหลายๆด้านรูปแบบหนึ่งของการเกิดความสัมพันธ์ของข้อมูลก็คือการเกิดขึ้นอย่างสม่ำเสมอนั่นคือข้อมูลจะปรากฏขึ้นห่างกันเป็นช่วงๆในระยะห่างที่ผู้ใช้ให้ความสำคัญ ซึ่งในการหาข้อมูลที่มีการเกิดขึ้นในลักษณะดังกล่าวจะต้องมีการกำหนดค่าสนับสนุนเพื่อใช้ในการเลือกกรองความสม่ำเสมอของข้อมูลที่เกิดขึ้น แต่ในทางปฏิบัติแล้วการกำหนดค่าขีดแบ่งที่เหมาะสมนี้ทำได้ยาก เนื่องจากถ้ากำหนดค่าขีดแบ่งนี้น้อยเกินไปจำนวนผลลัพธ์ที่ได้ก็จะมีปริมาณมากและในทางกลับกันถ้ากำหนดค่าขีดแบ่งมากผลลัพธ์ที่ได้ก็จะมีจำนวนน้อยหรืออาจจะไม่พบคำตอบที่สอดคล้องกับค่าขีดแบ่งนี้ ดังนั้นแทนที่จะกำหนดค่าขีดแบ่งนี้การกำหนดจำนวนผลลัพธ์ที่ต้องการจะเป็นการเหมาะสมกว่าจากการสำรวจงานวิจัยที่มีอยู่ในปัจจุบันพบว่าไม่มีวิธีใดที่ให้ผู้ใช้ระบุจำนวนการเกิดข้อมูลแบบสม่ำเสมอที่ผู้ใช้ต้องการดังนั้นวิทยานิพนธ์นี้จึงนำเสนอการใช้จำนวนผลลัพธ์เป็นเป้าหมายในการค้นหาข้อมูลที่มีการเกิดอย่างสม่ำเสมอ นั่นคือการหาผลลัพธ์ที่มีค่าสนับสนุนสูงที่สุดเคอันดับแรก ซึ่งวิธีที่วิทยานิพนธ์นี้นำเสนอมีดังนี้ (1) วิธีการหาคำตอบโดยอ่านข้อมูลจากฐานข้อมูลเพียงครั้งเดียว (2) การใช้การค้นหาแบบเลือกทางดีที่สุดเพื่อลดปริภูมิการค้นหา (3) การแบ่งข้อมูลและการประมาณค่าสนับสนุนเพื่อช่วยลดการคำนวณที่ไม่จำเป็นลง (4) การใช้วิธีการแทนข้อมูลแบบใหม่เพื่อลดเวลาและหน่วยความจำที่ใช้ในการประมวลผล ซึ่งจากการวิเคราะห์ประสิทธิภาพในเชิงเวลาและหน่วยความจำของวิธีการที่นำเสนอพบว่า ไม่ว่าจะกำหนดจำนวนของผลลัพธ์มากหรือน้อยไม่ว่าข้อมูลจะมีการกระจุกหรือกระจายตัว ขั้นตอนวิธีที่นำเสนอนี้ก็สามารถให้ผลลัพธ์ได้อย่างมีประสิทธิภาพen
dc.format.extent2821060 bytes-
dc.format.mimetypeapplication/pdf-
dc.language.isoenes
dc.publisherChulalongkorn Universityen
dc.relation.urihttp://doi.org/10.14457/CU.the.2010.1903-
dc.rightsChulalongkorn Universityen
dc.subjectData miningen
dc.titleMining top-k regular-frequent itemsets from transactional databaseen
dc.title.alternativeการหารูปแบบความถี่สม่ำเสมอเคอันดับแรกจากฐานข้อมูลรายการen
dc.typeThesises
dc.degree.nameDoctor of Engineeringes
dc.degree.levelDoctoral Degreees
dc.degree.disciplineComputer Engineeringes
dc.degree.grantorChulalongkorn Universityen
dc.email.advisorathasit@cp.eng.chula.ac.th-
dc.identifier.DOI10.14457/CU.the.2010.1903-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Komate_am.pdf2.75 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.