Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/45852
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | Jaruloj Chongstitvatana | en_US |
dc.contributor.author | Kamolwan Kunanusont | en_US |
dc.contributor.other | Chulalongkorn University. Faculty of Science | en_US |
dc.date.accessioned | 2015-09-17T04:05:41Z | - |
dc.date.available | 2015-09-17T04:05:41Z | - |
dc.date.issued | 2014 | en_US |
dc.identifier.uri | http://cuir.car.chula.ac.th/handle/123456789/45852 | - |
dc.description | Thesis (M.Sc.)--Chulalongkorn University, 2014 | en_US |
dc.description.abstract | Similarity search and similarity join are important operations in text databases. Similarity search finds all records which are similar to the given text query while similarity join matches pairs of similar records from two relations. In some situations, some similar queries are repeated over a period of time. These queries are called high-frequency queries. High-frequency-query-based filter is used to facilitate this type of queries. This method uses an index structure called similarity table to prune non-related text records in relations. A similarity table is created based on a chosen high-frequency query obtained from the query set. However, the performance of this filter method depends mostly on these chosen queries. This thesis proposes a method to find high-frequency queries for the high-frequency-query-based filter. The proposed method is based on a density-based cluster analysis, called DBSCAN, to capture the main characteristics of the query set by grouping them and find the representative points from each group. Two methods – DBRAN and DBSM - to deal with redundant high-frequency queries are proposed. DBRAN finds clusters high-frequency queries, by DBSCAN, and randomly chooses one high-frequency query from a cluster as a representative. DBSM also uses DBSCAN to finds clusters, and repeatedly merge the queries in these clusters until it cannot give any improvement on similarity tables. For evaluation, the proposed method is applied on various sets of queries to find high-frequency queries for three datasets. It is found that DBSM performs better than DBRAN when the similarity between high-frequency queries is low. However, when the similarity between high-frequencies is high, the performance of both DBRAN and DBSM are about the same. | en_US |
dc.description.abstractalternative | การค้นด้วยสายอักขระคล้าย และการเชื่อมด้วยสายอักขระคล้ายเป็นตัวดำเนินการที่สำคัญในฐานข้อมูลสายอักขระ การค้นด้วยสายอักขระคล้ายจะคืนค่าระเบียนในตารางที่คล้ายกับข้อความคำถาม ในขณะที่การเชื่อมด้วยสายอักขระคล้ายคืนค่าคู่ของระเบียนทุกคู่ระหว่างสองตารางที่คล้ายกัน ในบางสถานการณ์ การค้นหาดังกล่าวจะค้นหาด้วยข้อคำถามที่คล้ายกันในช่วงเวลาเดียวกัน ข้อคำถามเหล่านี้เรียกว่า ข้อคำถามที่ใช้บ่อย จึงมีผู้ออกแบบการกรองโดยอิงกับข้อคำถามที่ใช้บ่อยเพื่ออำนวยความสะดวกในการค้นข้อคำถามชนิดนี้ ผู้ออกแบบใช้โครงสร้างเรียกว่าตารางค่าความคล้ายเพื่อตัดระเบียนที่ไม่เกี่ยวข้องออก การสร้างตารางค่าความคล้ายจะสร้างโดยอิงกับเซตของข้อคำถามที่ใช้บ่อยที่ได้จากเซตของข้อคำถาม อย่างไรก็ตาม ประสิทธิภาพของการกรองนี้ขึ้นอยู่กับเซตเหล่านี้โดยตรง เป้าหมายของวิทยานิพนธ์นี้คือเพื่อออกแบบวิธีค้นหาข้อคำถามที่ใช้บ่อยที่เหมาะสมจะใช้กับการกรองโดยอิงกับข้อคำถามที่ใช้บ่อย วิธีที่ออกแบบใช้ขั้นตอนการวิเคราะห์จัดกลุ่มประเภทอิงกับความหนาแน่นชื่อ DBSCAN เพื่อจัดกลุ่มเซตของข้อคำถามที่ใช้บ่อยที่คล้ายกันและค้นหาข้อคำถามตัวแทนจากแต่ละกลุ่ม ผู้เขียนออกแบบขั้นตอนวิธีสองวิธี คือ DBRAN และ DBSM เพื่อกำจัดความซ้ำซ้อนของข้อคำถามที่ใช้บ่อย DBRAN จัดกลุ่มข้อคำถามที่ใช้บ่อยโดยใช้ DBSCAN และเลือกข้อคำถามที่ใช้บ่อยอย่างสุ่มหนึ่งข้อคำถามต่อหนึ่งกลุ่ม DBSM ใช้ DBSCAN เพื่อจัดกลุ่มเช่นกัน และผสานข้อคำถามในกลุ่มจนกระทั่งไม่สามารถเพิ่มประสิทธิภาพการกรองได้ ชั้นตอนการวัดผลคือ นำวิธีที่ออกแบบไปใช้กับเซตของข้อคำถามหลากหลายเซตสำหรับเซตของข้อมูลสามเซต และวัดประสิทธิ์ภาพของการเชื่อมด้วยสายอักขระคล้ายที่ใช้การกรองชนิดนี้เป็นตัวกรอง พบว่า DBSM มีประสิทธิภาพดีกว่า DBRAN เมื่อแต่ละข้อคำถามที่ใช้บ่อยคล้ายกันน้อย อย่างไรก็ตาม เมื่อข้อคำถามที่ใช้บ่อยคล้ายกันมาก ประสิทธิภาพของทั้งสองวิธีใกล้เคียงกัน | en_US |
dc.language.iso | en | en_US |
dc.publisher | Chulalongkorn University | en_US |
dc.relation.uri | http://doi.org/10.14457/CU.the.2014.264 | - |
dc.rights | Chulalongkorn University | en_US |
dc.subject | Keyword searching | |
dc.title | FINDING SETS OF HIGH-FREQUENCY QUERIES FOR HIGH-FREQUENCY-QUERY-BASED FILTER FOR SIMILARITY JOIN | en_US |
dc.title.alternative | การค้นหาเซตของข้อคำถามที่ใช้บ่อยสำหรับตัวกรองอิงข้อคำถามที่ใช้บ่อยสำหรับการเชื่อมด้วยสายอักขระคล้าย | en_US |
dc.type | Thesis | en_US |
dc.degree.name | Master of Science | en_US |
dc.degree.level | Master's Degree | en_US |
dc.degree.discipline | Computer Science and Information Technology | en_US |
dc.degree.grantor | Chulalongkorn University | en_US |
dc.email.advisor | Jaruloj.C@Chula.ac.th,jaruloj@gmail.com | en_US |
dc.identifier.DOI | 10.14457/CU.the.2014.264 | - |
Appears in Collections: | Sci - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
5772601023.pdf | 1.78 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.