Abstract:
การค้นหากลุ่มเอกสารที่มีลักษณะสัมพันธ์กันของบริบทเป็นสิ่งที่ท้าทาย เนื่องจากเป็นการยากที่จะประเมินได้ว่าเอกสารที่ได้มานั้นมีเนื้อหาที่ถูกต้อง เหมาะสมและตรงตามความต้องการของผู้ใช้ งานวิจัยนี้จึงได้นำเสนอกรอบงานสารสนเทศควบรวม เพื่อรวบรวมสาระสำคัญที่น่าสนใจและเหมาะสมจากเอกสารที่ได้จากการค้นคืน ซึ่งเป็นเอกสารมีโครงสร้างในรูปแบบเอกซ์เอ็มแอล แนวทางที่นำเสนอประกอบด้วย 2 ส่วนหลัก คือ ส่วนการค้นคืนสารสนเทศจากเอกสาร และส่วนการนำเสนอสารสนเทศ โดยส่วนการค้นคืนสารสนเทศจากเอกสารมีโครงสร้าง ทำหน้าที่แยกส่วน รวบรวมและพิจารณาบริบทในเอกสารเพื่อสกัดสาระสำคัญที่เหมาะสมและตรงตามความต้องการของผู้ใช้งานด้วยเทคนิคการสืบค้นข้อมูลเอกซ์เอ็มแอล ซึ่งใช้ภาษาเอกซ์คิวรีและวิธีการแท็กข้อมูลด้วยคำศัพท์ควบคุมที่ประกอบด้วยคำสำคัญและคำที่มีความหมายใกล้เคียง เพื่อจัดทำเป็นดัชนีด้วยภาษาเอกซ์พาธ ชุดข้อมูลผลลัพธ์จากการสืบค้นจะถูกนำมาหาความสัมพันธ์ของบริบทด้วยเทคนิควิธีการจัดกลุ่มโดยใช้อัลกอริทึมเค-มีนส์ และตัววัดทีเอฟ-ไอดีเอฟ เพื่อบอกความเกี่ยวข้องของเอกสารผลลัพธ์จากการค้นคืน ต่อจากนั้น ส่วนการนำเสนอสารสนเทศจะทำการเรียงลำดับและจัดรูปแบบสารสนเทศตามที่กำหนดไว้ก่อนหน้าด้วยภาษาเอกซ์เอสแอลทีเพื่อแปลงข้อมูลเอกซ์เอ็มแอลเป็นเอชทีเอ็มแอล ผลลัพธ์การค้นคืนสารสนเทศจากการทดลองในงานวิจัยนี้ถูกประเมินด้วยค่าพรีซิชัน รีคอล และค่าเอฟ ได้ค่าเฉลี่ยที่ 83% 84% และ 83% ตามลำดับ ซึ่งอยู่ในระดับดีปานกลาง