DSpace Repository

การศึกษาเปรียบเทียบประสิทธิภาพของระบบค้นคืนสารสนเทศที่ใช้เทคนิคการวัดความคล้ายคลึงเชิงมุมและเทคนิคการวัดความคล้ายคลึงเชิงระยะห่างยูคลิเดียนที่กำหนดกรอบค่าความคล้ายคลึงด้วยผลลัพธ์จากการจัดกลุ่มข้อมูล

Show simple item record

dc.contributor.advisor จันทร์เจ้า มงคลนาวิน
dc.contributor.author สุนันทา เปี่ยมพริ้ง
dc.contributor.other จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี
dc.date.accessioned 2014-03-23T06:47:46Z
dc.date.available 2014-03-23T06:47:46Z
dc.date.issued 2550
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/41788
dc.description วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2550 en_US
dc.description.abstract วิทยานิพนธ์นี้เสนอการศึกษาเปรียบเทียบประสิทธิภาพของระบบการค้นคืนเอกสารเทคนิคปริภูมิเวกเตอร์ด้วยวิธีการวัดความคล้ายคลึงเชิงมุม และวิธีการวัดความคล้ายคลึงเชิงระยะห่างยูคลิเดียนด้วยการประยุกต์ใช้ทฤษฎีการจัดกลุ่มข้อมูลแบบ K-mean Clustering กำหนดเงื่อนไข หรือกรอบความคล้ายคลึงในการเลือกเอกสารที่เป็นคำตอบ ถ้าเอกสารใดที่มีระยะห่างกับข้อสอบถามภายใต้กรอบความคล้ายคลึงที่กำหนดจะถูกค้นคืนออกมาแสดงต่อผู้ใช้โดยได้ทดสอบกับชุดเอกสารนิตยสารไทม์ จำนวน 425 เอกสาร และข้อสอบถาม จำนวน 83 ข้อสอบถาม โดยเปรียบเทียบประสิทธิภาพของระบบการค้นคืนเอกสารทั้ง 2 รูปแบบข้างต้น ด้วยค่าความแม่นยำ, ค่าความระลึก และค่าเฉลี่ยฮาร์โมนิค จากผลการทดลองสรุปได้ว่า ระบบการการค้นคืนเอกสารที่ใช้เทคนิคปริภูมิเวกเตอร์ด้วยวิธีการวัดความคล้ายคลึงเชิงมุม มีค่าประสิทธิภาพทั้ง 3 ค่ามากกว่าระบบการค้นคืนเอกสารด้วยวิธีวัดความคล้ายคลึงเชิงระยะห่างยูคลิเดียน ผู้วิจัยตั้งข้อสังเกตว่าวิธีการวัดความคล้ายคลึงเชิงระยะห่างยูคลิเดียนอาจจะไม่เหมาะสมสำหรับนำมาใช้ในกระบวนการค้นคืนเอกสารที่ใช้เทคนิคปริภูมิเวกเตอร์ เมื่อทดสอบด้วยชุดเอกสารนิตยสารไทม์ เนื่องจากเป็นชุดเอกสารที่มีความหลายหลายของคำสูง ผู้วิจัยจึงได้ศึกษาว่าการประยุกต์ใช้เทคนิคการจัดกลุ่มข้อมูลแบบ K-mean Clustering บนระยะห่างเชิงมุมมากำหนดเงื่อนไขในการเลือกเอกสารที่เป็นคำตอบ จะสามารถเพิ่มประสิทธิภาพของระบบการค้นคืนเอกสารที่ใช้เทคนิคปริภูมิเวกเตอร์ด้วยวิธีการวัดความคล้ายคลึงเชิงมุมได้หรือไม่ ผลการทดลองแสดงให้เห็นว่าเมื่อเปรียบเทียบกับระบบการค้นคืนเอกสารที่ใช้เทคนิคปริภูมิเวกเตอร์ด้วยวิธีการวัดความคล้ายคลึงเชิงมุมประสิทธิภาพของระบบค้นคืนเอกสารที่ใช้เทคนิคปริภูมิเวกเตอร์ด้วยวิธีการจัดความคล้ายคลึงเชิงมุมที่ใช้เทคนิคการจัดกลุ่มข้อมูลสามารถทำให้ค่าประสิทธิภาพความแม่นยำและค่าเฉลี่ยฮาร์โมนิคดีขึ้น แต่ค่าประสิทธิภาพความระลึกต่ำลง
dc.description.abstractalternative The thesis presents a comparison study of the efficiency between the vector space model information retrieval system using cosine angle technique and the one using Euclidean distance technique together with K-means clustering where K-means clustering is used to guide the threshold for retrieving answer documents. The experiments were conducted on the TIME Magazine collection which consists of 425 documents and 83 queries. The performance of the two information retrieval systems is compared through the use of Precision, Recall and Harmonic mean measurement. The experimental results show that the performance of the information retrieval system using cosine angle technique is significantly better than those using Euclidean distance technique in all three measurements. It was observed that the Euclidean distance technique may be unsuitable for comparing the similarity in the TIME Magazine collection where the variation in words is extremely high. Thus, the exploratory study was conducted to further investigate whether the use of the cosine angle technique together with K-mean clustering can improve the efficiency of the traditional cosine angle information retrieval system or not. The results show that the information retrieval system using the cosine angle together with K-mean clustering has higher Precision and Harmonic mean than those without K-mean clustering technique, but has lower Recall.
dc.language.iso th en_US
dc.publisher จุฬาลงกรณ์มหาวิทยาลัย en_US
dc.rights จุฬาลงกรณ์มหาวิทยาลัย en_US
dc.title การศึกษาเปรียบเทียบประสิทธิภาพของระบบค้นคืนสารสนเทศที่ใช้เทคนิคการวัดความคล้ายคลึงเชิงมุมและเทคนิคการวัดความคล้ายคลึงเชิงระยะห่างยูคลิเดียนที่กำหนดกรอบค่าความคล้ายคลึงด้วยผลลัพธ์จากการจัดกลุ่มข้อมูล en_US
dc.title.alternative A comparison study of the efficiency of information retreival systerms using cosine angle and euclidean distance where similarity frame is guides by output from clustering technique en_US
dc.type Thesis en_US
dc.degree.name วิทยาศาสตรมหาบัณฑิต en_US
dc.degree.level ปริญญาโท en_US
dc.degree.discipline การพัฒนาซอฟต์แวร์ด้านธุรกิจ en_US
dc.degree.grantor จุฬาลงกรณ์มหาวิทยาลัย en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record