Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/12965
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorสมชาย ประสิทธิ์จูตระกูล-
dc.contributor.authorวิฑูรย์ กัลยาณวัฒน์-
dc.contributor.otherจุฬาลงกรณ์มหาวิทยาลัย. บัณฑิตวิทยาลัย-
dc.date.accessioned2010-06-22T08:08:36Z-
dc.date.available2010-06-22T08:08:36Z-
dc.date.issued2540-
dc.identifier.isbn9746376632-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/12965-
dc.descriptionวิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2540en
dc.description.abstractนำเสนอขั้นตอนวิธีการจัดทำดัชนีสำหรับระบบสืบค้นข้อความไทย ที่ใช้โครงสร้างแฟ้มข้อมูลแบบผกผัน โดยที่เอกสารต่างๆ ที่ได้รับมานั้นสามารถมีคำที่ไม่มีอยู่ในพจนานุกรมของระบบได้ ปัญหานี้เกิดขึ้นจากการเขียนข้อความในภาษาไทย ที่ไม่มีตัวกำหนดขอบเขตระหว่างคำ โดยอาศัยพจนานุกรมของระบบ ขั้นตอนวิธีที่นำเสนอนี้หาคำตอบที่ยาวสุดต่างๆ ที่มีในพจนานุกรมที่ปรากฏในข้อความ จากนั้นสร้างกราฟที่แทนการติดกันและการทับกันของคำต่างๆ ในข้อความ โดยที่เส้นทางที่สั้นสุดในกราฟนี้ แทนกลุ่มที่เล็กสุดของคำในข้อความที่เมื่อเลือกแล้ว จะลดจำนวนสายอักขระย่อยที่ไม่รู้จักให้ปรากฏขึ้นเป็นจำนวนน้อยที่สุด สายอักขระย่อยเหล่านี้จะถูกเทียบกับพยางค์ต่างๆ ในข้อความ โดยการใช้ขั้นตอนวิธีการแบ่งพยางค์แบบใช้กฎ คำต่างๆ ที่ได้บนเส้นทางสั้นสุดของกราฟ และพยางค์ต่างๆ ที่ได้จากการเทียบกับสายอักขระย่อยที่ไม่เป็นคำที่รู้จัก จะเป็นกลุ่มของคำสำคัญในการจัดทำดัชนีของข้อความที่ได้รับ ผลการทดลองแสดงให้เห็นว่าจำนวนคำสำคัญที่หาได้นั้น ลดจากจำนวนคำทั้งหมดที่หาได้จากข้อความประมาณ 72%en
dc.description.abstractalternativePresents an autormatic indexing algorithm for inverted-file-based Thai text retrieval system where given documents can have words that are unkhown to the system's dictionary. The problem arises from the fact that there is no explicit inter-word delimiter in Thai text. By using system dictionary, the algorithm first finds a set of recognizable words that maximally match all the semi-infinite substrings of a given text. It then constructs an adjacent-overlapping graph whose a shortest path represents a smallest list of known words minimizing unknown substrings of the text. The unknown substrings are matched with the set of syllables obtained from a rule-based syllable segmentation of the text. The words on the shortest path of the adjacent-overlapping graph and the matched syllables are then used as keywords for indexing of the given text. Experimental results showed that the number of keywords obtained is approximately 72% less compared to the number obtained by using matching-all-known-words technique.en
dc.format.extent351731 bytes-
dc.format.extent236039 bytes-
dc.format.extent458071 bytes-
dc.format.extent549721 bytes-
dc.format.extent437644 bytes-
dc.format.extent235584 bytes-
dc.format.extent389747 bytes-
dc.format.mimetypeapplication/pdf-
dc.format.mimetypeapplication/pdf-
dc.format.mimetypeapplication/pdf-
dc.format.mimetypeapplication/pdf-
dc.format.mimetypeapplication/pdf-
dc.format.mimetypeapplication/pdf-
dc.format.mimetypeapplication/pdf-
dc.language.isothes
dc.publisherจุฬาลงกรณ์มหาวิทยาลัยen
dc.rightsจุฬาลงกรณ์มหาวิทยาลัยen
dc.subjectภาษาไทยen
dc.subjectการค้นข้อสนเทศen
dc.subjectแฟ้มดัชนีen
dc.titleระบบการค้นคืนข้อความภาษาไทยโดยใช้แฟ้มข้อมูลผกผันen
dc.title.alternativeThai text retrieval system using inverted filesen
dc.typeThesises
dc.degree.nameวิศวกรรมศาสตรมหาบัณฑิตes
dc.degree.levelปริญญาโทes
dc.degree.disciplineวิศวกรรมคอมพิวเตอร์es
dc.degree.grantorจุฬาลงกรณ์มหาวิทยาลัยen
dc.email.advisorSomchai.P@Chula.ac.th-
Appears in Collections:Grad - Theses

Files in This Item:
File Description SizeFormat 
Witoon_Ka_front.pdf343.49 kBAdobe PDFView/Open
Witoon_Ka_ch1.pdf230.51 kBAdobe PDFView/Open
Witoon_Ka_ch2.pdf447.33 kBAdobe PDFView/Open
Witoon_Ka_ch3.pdf536.84 kBAdobe PDFView/Open
Witoon_Ka_ch4.pdf427.39 kBAdobe PDFView/Open
Witoon_Ka_ch5.pdf230.06 kBAdobe PDFView/Open
Witoon_Ka_back.pdf380.61 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.