Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/68668
Title: | ระบบค้นคืนสารสนเทศแบบจัดลำดับและแบบค้นคืนย้อนกลับบนโครงสร้างแถวลำดับแพ็ต |
Other Titles: | An information retrieval system using ranking and relevance feedback on the PAT array |
Authors: | มานพ จงเจริญใจ |
Advisors: | จารุมาตร ปีนทอง ธาราทิพย์ สุวรรณศาสตร |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. บัณฑิตวิทยาลัย |
Advisor's Email: | Taratip.S@Chula.ac.th,taratip.s@chula.ac.th ไม่มีข้อมูล |
Subjects: | การค้นคืนสารสนเทศ ดัชนี Information retrieval Indexes |
Issue Date: | 2541 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | วิทยานิพนธ์นี้เสนอการพัฒนาระบบค้นคืนสารสนเทศในรูปแบบเอกสารที่เป็นข้อความด้วยวิธีค้นคืนแบบจัดลำดับและแบบค้นคืนย้อนกลับโดยใช้แถวลำดับแพ็ตเป็นดัชนีเพื่อใช้ในการค้นคืน แถวลำดับแพ็ต เป็นโครงสร้างที่เหมาะกับข้อความภาษาไทยที่การแบ่งคำยังไม่ถูกต้องสมบูรณ์ แถวลำดับแพ็ตจัดเก็บดัชนีในรูปของสายอักขระแบบกึ่งอนันต์ที่เรียกว่าซิสตริง การพัฒนาโปรแกรมค้นคืนแบ่งออกเป็น 3 ส่วนคือ ส่วนของการสร้างดัชนีของน้ำหนักคำ ส่วนของการจัดลำดับผลการค้นคืน และส่วนของการค้นคืนย้อนกลับ สำหรับส่วนของการสร้างดัชนีของน้ำหนักคำ จะเก็บค่าตัวชี้ตำแหน่งซิสตริงที่ไม่ซ้ำกันและค่าความถี่ของแต่ละซิสตริงในเอกสารทั้งหมดไว้ในแถวลำดับแพ็ตเพื่อลดขั้นตอนการประมวลผลในช่วงค้นคืน การค้นคืนจะเปรียบเทียบคิวรีที่ผู้ใช้ป้อน กับคำที่ได้จากซิสตริงซึ่งเป็นคำที่ถูกต้องตามหลักภาษาศาสตร์สำหรับส่วนของการจัดลำดับผลการค้นคืนนั้น เมื่อได้ผลลัพธ์การค้นคืน จะนำผลลัพธ์นั้นมาคำนวณหาค่าตามสูตรคำนวณน้ำหนักคำ เพื่อให้ได้ค่าน้ำหนักคำรวมของแต่ละเอกสาร แล้วนำผลน้ำหนักคำที่ได้มาทำการจัดลำดับตามค่าน้ำหนักคำ และส่วนของการค้นคืนย้อนกลับจะนำ เอกสารที่ผู้ใช้แสดงว่าเอกสารนั้นตรงตามต้องการมาใช้สร้างคำใหม่ เพื่อให้ผู้ใช้นำคำใหม่นี้ไปใช้ค้นคืนซ้ำอีกครั้ง เพื่อให้ผลการค้นคืนใหม่มีค่าความถูกต้องสูงขึ้นกว่าเดิม ในการวิจัยนี้ได้เลือกสูตรคำนวณน้ำหนักคำมาทั้งหมด 5 สูตร และจากผลการทดลองการค้นคืน แบบจัดลำดับโดยใช้สูตรคำนวณน้ำหนักคำ 5 สูตร พบว่ามี 2 สูตรที่ให้ผลเฉลี่ยค่าความถูกต้องสูงสุดคือ สูตรคำนวณน้ำหนักคำที่ประกอบไปด้วยค่าความถี่ของคำที่ปรากฎในเอกสาร และสูตรคำนวณน้ำหนักคำที่ ประกอบไปด้วยค่าความถี่ของคำที่ปรากฎในเอกสารคูณกับค่าความถี่เอกสารแบบผกผัน ส่วนผลการทดลอง การค้นคืนแบบค้นคืนย้อนกลับ พบว่าการเลือกใช้คำที่มีค่าความถี่คำอยู่ในช่วงขีดจำกัดที่เหมาะสม ช่วยให้ระบบเสนอคิวรีใหม่ที่ช่วยให้ผลการค้นคืนมีผลเฉลี่ยค่าความถูกต้องสูงขึ้นกว่าเดิมได้ |
Other Abstract: | This thesis presents a development of information retrieval system using ranking and relevance feedback on PAT arrays which are used as index for retrieval. A PAT array is a structure that fits for Thai text which Thai text which is not completely segmented. PAT arrays store index in semi-infinite strings (sistrings). The development consists of 3 subsystems: the index term weights creation subsystem, the ranking subsystem, and the relevance feedback subsystem. The index term weights creation subsystem stores unique sistrings and frequency of each sistring from all documents in a PAT array in order to decrease retrieval time. The retrieval compares between user’s query and words from sistrings which follow the linguistics rules. After getting the retrieval results, the ranking subsystem calculates term weights for each document, and sort the documents in descending order using the term weights as a key. The relevance feedback subsystem allows the user to select relevant documents, and enter new query in order to improve the results. This research experienced five term weight formulas. The experiments showed that there are two formulas that give the best results. One of the two formulas consists of term frequency in its formula and the other consists of term frequency multiplied by inverse document frequency. For the relevance feedback, the experiments showed that choosing the appropriate threshold help the system promote new queries that help improve better results. |
Description: | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2541 |
Degree Name: | วิทยาศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิทยาศาสตร์คอมพิวเตอร์ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/68668 |
ISSN: | 9743317805 |
Type: | Thesis |
Appears in Collections: | Grad - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Manop_jo_front.pdf | หน้าปกและบทคัดย่อ | 436.49 kB | Adobe PDF | View/Open |
Manop_jo_ch1.pdf | บทที่ 1 | 173.75 kB | Adobe PDF | View/Open |
Manop_jo_ch2.pdf | บทที่ 2 | 1.06 MB | Adobe PDF | View/Open |
Manop_jo_ch3.pdf | บทที่ 3 | 578.71 kB | Adobe PDF | View/Open |
Manop_jo_ch4.pdf | บทที่ 4 | 2.45 MB | Adobe PDF | View/Open |
Manop_jo_ch5.pdf | บทที่ 5 | 556.41 kB | Adobe PDF | View/Open |
Manop_jo_ch6.pdf | บทที่ 6 | 55.91 kB | Adobe PDF | View/Open |
Manop_jo_back.pdf | บรรณานุกรมและภาคผนวก | 101.71 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.