Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/45852
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorJaruloj Chongstitvatanaen_US
dc.contributor.authorKamolwan Kunanusonten_US
dc.contributor.otherChulalongkorn University. Faculty of Scienceen_US
dc.date.accessioned2015-09-17T04:05:41Z-
dc.date.available2015-09-17T04:05:41Z-
dc.date.issued2014en_US
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/45852-
dc.descriptionThesis (M.Sc.)--Chulalongkorn University, 2014en_US
dc.description.abstractSimilarity search and similarity join are important operations in text databases. Similarity search finds all records which are similar to the given text query while similarity join matches pairs of similar records from two relations. In some situations, some similar queries are repeated over a period of time. These queries are called high-frequency queries. High-frequency-query-based filter is used to facilitate this type of queries. This method uses an index structure called similarity table to prune non-related text records in relations. A similarity table is created based on a chosen high-frequency query obtained from the query set. However, the performance of this filter method depends mostly on these chosen queries. This thesis proposes a method to find high-frequency queries for the high-frequency-query-based filter. The proposed method is based on a density-based cluster analysis, called DBSCAN, to capture the main characteristics of the query set by grouping them and find the representative points from each group. Two methods – DBRAN and DBSM - to deal with redundant high-frequency queries are proposed. DBRAN finds clusters high-frequency queries, by DBSCAN, and randomly chooses one high-frequency query from a cluster as a representative. DBSM also uses DBSCAN to finds clusters, and repeatedly merge the queries in these clusters until it cannot give any improvement on similarity tables. For evaluation, the proposed method is applied on various sets of queries to find high-frequency queries for three datasets. It is found that DBSM performs better than DBRAN when the similarity between high-frequency queries is low. However, when the similarity between high-frequencies is high, the performance of both DBRAN and DBSM are about the same.en_US
dc.description.abstractalternativeการค้นด้วยสายอักขระคล้าย และการเชื่อมด้วยสายอักขระคล้ายเป็นตัวดำเนินการที่สำคัญในฐานข้อมูลสายอักขระ การค้นด้วยสายอักขระคล้ายจะคืนค่าระเบียนในตารางที่คล้ายกับข้อความคำถาม ในขณะที่การเชื่อมด้วยสายอักขระคล้ายคืนค่าคู่ของระเบียนทุกคู่ระหว่างสองตารางที่คล้ายกัน ในบางสถานการณ์ การค้นหาดังกล่าวจะค้นหาด้วยข้อคำถามที่คล้ายกันในช่วงเวลาเดียวกัน ข้อคำถามเหล่านี้เรียกว่า ข้อคำถามที่ใช้บ่อย จึงมีผู้ออกแบบการกรองโดยอิงกับข้อคำถามที่ใช้บ่อยเพื่ออำนวยความสะดวกในการค้นข้อคำถามชนิดนี้ ผู้ออกแบบใช้โครงสร้างเรียกว่าตารางค่าความคล้ายเพื่อตัดระเบียนที่ไม่เกี่ยวข้องออก การสร้างตารางค่าความคล้ายจะสร้างโดยอิงกับเซตของข้อคำถามที่ใช้บ่อยที่ได้จากเซตของข้อคำถาม อย่างไรก็ตาม ประสิทธิภาพของการกรองนี้ขึ้นอยู่กับเซตเหล่านี้โดยตรง เป้าหมายของวิทยานิพนธ์นี้คือเพื่อออกแบบวิธีค้นหาข้อคำถามที่ใช้บ่อยที่เหมาะสมจะใช้กับการกรองโดยอิงกับข้อคำถามที่ใช้บ่อย วิธีที่ออกแบบใช้ขั้นตอนการวิเคราะห์จัดกลุ่มประเภทอิงกับความหนาแน่นชื่อ DBSCAN เพื่อจัดกลุ่มเซตของข้อคำถามที่ใช้บ่อยที่คล้ายกันและค้นหาข้อคำถามตัวแทนจากแต่ละกลุ่ม ผู้เขียนออกแบบขั้นตอนวิธีสองวิธี คือ DBRAN และ DBSM เพื่อกำจัดความซ้ำซ้อนของข้อคำถามที่ใช้บ่อย DBRAN จัดกลุ่มข้อคำถามที่ใช้บ่อยโดยใช้ DBSCAN และเลือกข้อคำถามที่ใช้บ่อยอย่างสุ่มหนึ่งข้อคำถามต่อหนึ่งกลุ่ม DBSM ใช้ DBSCAN เพื่อจัดกลุ่มเช่นกัน และผสานข้อคำถามในกลุ่มจนกระทั่งไม่สามารถเพิ่มประสิทธิภาพการกรองได้ ชั้นตอนการวัดผลคือ นำวิธีที่ออกแบบไปใช้กับเซตของข้อคำถามหลากหลายเซตสำหรับเซตของข้อมูลสามเซต และวัดประสิทธิ์ภาพของการเชื่อมด้วยสายอักขระคล้ายที่ใช้การกรองชนิดนี้เป็นตัวกรอง พบว่า DBSM มีประสิทธิภาพดีกว่า DBRAN เมื่อแต่ละข้อคำถามที่ใช้บ่อยคล้ายกันน้อย อย่างไรก็ตาม เมื่อข้อคำถามที่ใช้บ่อยคล้ายกันมาก ประสิทธิภาพของทั้งสองวิธีใกล้เคียงกันen_US
dc.language.isoenen_US
dc.publisherChulalongkorn Universityen_US
dc.relation.urihttp://doi.org/10.14457/CU.the.2014.264-
dc.rightsChulalongkorn Universityen_US
dc.subjectKeyword searching
dc.titleFINDING SETS OF HIGH-FREQUENCY QUERIES FOR HIGH-FREQUENCY-QUERY-BASED FILTER FOR SIMILARITY JOINen_US
dc.title.alternativeการค้นหาเซตของข้อคำถามที่ใช้บ่อยสำหรับตัวกรองอิงข้อคำถามที่ใช้บ่อยสำหรับการเชื่อมด้วยสายอักขระคล้ายen_US
dc.typeThesisen_US
dc.degree.nameMaster of Scienceen_US
dc.degree.levelMaster's Degreeen_US
dc.degree.disciplineComputer Science and Information Technologyen_US
dc.degree.grantorChulalongkorn Universityen_US
dc.email.advisorJaruloj.C@Chula.ac.th,jaruloj@gmail.comen_US
dc.identifier.DOI10.14457/CU.the.2014.264-
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
5772601023.pdf1.78 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.