Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/8074
Title: Extending language models with term proximity weight to utilize term set relation in information retrieval
Other Titles: การขยายตัวแบบภาษาโดยใช้น้ำหนักความใกล้ชิดของคำเพื่อหาความสัมพันธ์ของชุดคำในการค้นคืนสารสนเทศ
Authors: Sompong Kittinaradorn
Advisors: Athasit Surarerks
Nakornthip Prompoon
Other author: Chulalongkorn University. Faculty of Engineering
Advisor's Email: athasit@cp.eng.chula.ac.th
Nakornthip.S@chula.ac.th
Subjects: Information retrieval
Issue Date: 2006
Publisher: Chulalongkorn University
Abstract: This research work is aimed at improving the performance of ad hoc information retrieval via a novel method to compute query term weights on the assumption that terms can be grouped by concepts, as against the conventional practice that terms are independent of one another. The new method is based on the approach that the importance of a term is determined by its contribution to the key concept term of the text. The research introduces a heuristics to group terms by concepts. To visualize it, a graph is plotted with the ordered term positions of a query on the x-axis and the well-known idf weights (Inverse Document Frequency) on the y-axis. Peak terms are classified as concept terms if their idf weights are above a threshold. The highest peak term is the key concept term. Each peak terms are supported by satellite terms on both sides. Between two adjacent peak terms, the term with the lowest idf weight is used to mark a boundary of term sets. Computation is a tree-stepped process: the first to compute the importance of the concept term to the distinct key concept term, the second to estimate the importance of a term in reference to the concept term of the same term set, and the last to compute the importance of the term to the key concept. The calculated weights differ from the idf weight in that the former reflects term importance in the context of a reference concept, i.e. it is a local property, whereas the idf weight is a global property derived from a document collection. In this way, the proposed method can be seen as a context-dependent or concept-determined importance. To test the efficiency of the new term weighting scheme, an experimental design is devised on the hypothesis that a query with concept-dependent weights for its terms would yield better ad hoc information retrieval results. Experiments are conducted within the language modeling framework using query likelihood scoring method and Dirichlet prior smoothing technique. They produce convincing gains for the new approach compared to the baseline and the idf-based results. Improvements are significantly positive on all accounts and are particularly outstanding in the precision area. Using TREC 7 and TREC 8 query sets, the experiments report a 16.12% and 15.74% increases in mean average precision (MAP) respectively. The new method also outperforms the idf-based scheme by 9.10%, and 13.34% for TREC 7 and TREC 8 query sets respectively.
Other Abstract: งานวิทยานิพนธ์นี้มุ่งที่จะเพิ่มประสิทธิภาพในการค้นคืนสารสนเทศโดยใช้แนวทางใหม่ในการคำนวณหาน้ำหนักของคำในคำถาม (Query) ที่ส่งไปยังระบบค้นคืนสารสนเทศที่ใช้ตัวแบบภาษา (Language model) งานชิ้นนี้เสนอแนวคิดให้เพิ่มน้ำหนักของคำตามความสำคัญของคำนั้นที่มีต่อประเด็นหลักในคำถาม ตามแนวคิดดังกล่าว ข้อความหนึ่งจะประกอบด้วยชุดของลำดับคำ และแต่ละชุดคำจะประกอบกันเป็นประเด็นหนึ่งโดยมีคำที่มีน้ำหนักสูงสุดในกลุ่มเป็นตัวแทนของชุดคำนั้น ตัวแทนของชุดคำจะประกอบกันเพื่อเสริมประเด็นใหญ่ประเด็นเดียวของประโยคหรือข้อความ งานวิจัยนี้เสนอหลักเกณฑ์ในการแบ่งคำเป็นชุดคำโดยอาศัยกราฟเป็นเครื่องมือ กำหนดให้ลำดับของคำในข้อความเป็นค่าตามแกนนอนและน้ำหนักคำที่คำนวณแบบไอดีเอฟ (Inverse document frequency: IDF) เป็นค่าตามแนวตั้ง คำที่เป็นจุดยอดบนเส้นกราฟและอยู่เหนือเส้นกำหนดค่าขั้นตำ (Threshold) จะถือว่าเป็นคำตัวแทนประเด็น และแต่ละคำตัวแทนจะมีคำที่อยู่ข้างเคียงเป็นสมาชิกของชุดคำ คำที่มีน้ำหนักน้อยสุดระหว่างยอดสองยอดจะเป็นคำที่แบ่งชุดคำ งานวิจัยนี้นำเสนอสูตรในการคำนวณหาน้ำหนักของคำโดยมีขั้นตอนหลักสามขั้นตอน ขั้นตอนแรก คำนวณหาความสำคัญของคำตัวแทนของประเด็นที่มีต่อประเด็นใหญ่ ขั้นต่อมาคำนวณหาความสำคัญของคำที่มีต่อคำตัวแทนของประเด็นในชุดคำเดียวกัน ขั้นตอนสุดท้ายใช้ค่าที่ได้จากการคำนวณในสองขั้นตอนแรกคำนวณความสำคัญของคำที่มีต่อประเด็นใหญ่ การทดลองนำสูตรดังกล่าวมาใช้กับฐานข้อมูลทดลองของเทร็ค (Text retrieval conference: TREC) ให้ผลเป็นที่น่าพึงพอใจเมื่อเทียบกับผลการค้นคืนปกติ สูตรที่นำเสนอเพิ่มประสิทธิภาพในเชิงความแม่นยำเฉลี่ย (Mean average precision) 16.12 และ 15.74 เปอร์เซ็นสำหรับชุดคำถามที่เจ็ดและแปดตามลำดับ (TREC 7, TREC 8)
Description: Thesis (M.Sc.)--Chulalongkorn University, 2006
Degree Name: Master of Science
Degree Level: Master's Degree
Degree Discipline: Computer Science
URI: http://cuir.car.chula.ac.th/handle/123456789/8074
URI: http://doi.org/10.14457/CU.the.2006.1551
metadata.dc.identifier.DOI: 10.14457/CU.the.2006.1551
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Sompong_Ki.pdf2.08 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.