Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/12636
Title: การวิเคราะห์แนวทางการเปรียบเทียบสมรรถนะของโปรแกรมแยกคำภาษาไทย
Other Titles: Analysis of guidelines for performance comparison of Thai word separation programs
Authors: พิสิทธิ์ พรมจันทร์
Advisors: ยรรยง เต็งอำนวย
Other author: จุฬาลงกรณ์มหาวิทยาลัย. บัณฑิตวิทยาลัย
Advisor's Email: Yunyong.T@Chula.ac.th
Subjects: อัลกอริทึม
การตัดคำ
Issue Date: 2540
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: งานวิจัยนี้ได้ทำการวิเคราะห์ หาแนวทางในการเปรียบเทียบสมรรถนะของโปรแกรมและอัลกอริธึมตัดคำภาษาไทย โดยเริ่มจากการสังเคราะห์ตัวอย่างมาตรวัด ที่จะใช้ในการวัดและเปรียบเทียบประสิทธิภาพ ศึกษาคุณลักษณะเฉพาะของเอกสารภาษาไทย ที่มีผลต่อประสิทธิภาพของโปรแกรมตัดคำภาษาไทย รวบรวมโปรแกรมและอัลกอริธึมตัดคำภาษาไทย ที่ได้มีการพัฒนาและเผยแพร่ใช้งานในปัจจุบัน รวบรวมข้อมูลภาษาไทยที่ใช้อ้างอิง รวมไปถึงพจนานุกรมที่ใช้ในการตรวจสอบความถูกต้องของการตัดคำ จากนั้นจึงทำการพัฒนาวิธีการวัดประสิทธิภาพ และทำการวัดประสิทธิภาพ จากผลการวัดประสิทธิภาพพบว่าแบบเปรียบเทียบคำที่ยาวที่สุดจะตัดได้จำนวนคำที่ถูกต้องออกมามากที่สุด แบบการแก้ไขย้อนกลับจะได้คำผิดน้อยที่สุด แบบอาศัยความถี่ของการใช้คำจะได้อัตราความถูกต้องต่อจำนวนคำในพจนานุกรมสูงสุด แบบใช้พจนานุกรมลดความกำกวมสามารถจัดการกับคำกำกวมได้ดีที่สุดและแบบเปรียบเทียบคำที่สั้นที่สุดจะตัดออกมาได้จำนวนคำสูงสุด นอกจากนี้พบว่าโครงสร้างข้อมูลสำหรับพจนานุกรมที่ใช้ในโปรแกรมตัดคำมีผลมากในด้านความเร็ว โดยที่โครงสร้างข้อมูลแบบทรัยให้ความเร็วสูงสุดในปัจจุบัน
Other Abstract: In this thesis, the guidelines for performance comparison of Thai Words Separation Programs have been analyzed. The thesis begin from synthesis of example of performance indicators, study the characteristics of Thai documents that effect performance of the Thai Words Separation Programs. Then, collect Thai Words Separation Programs and algorithms that had been developed and announced to be used currently, collect the Thai reference data which include the reference dictionary to validate the accuracy of Thai Words Separation, and develop the measurement methodology. Finally, I do the performance measurement using the developed methodology. Experimental results show that the Longest Pattern Matching gives the most accurate words output while the Back Tracking Algorithm gives the least error words. Words Usage Frequency gives the highest valid words ratio per number of words in its dictionary. The usage of ambiguity dictionary gives the best ambiguous case resolution, whereas the Shortest Pattern Matching gives the highest number of words output. Additionally, it is found that the data structure for dictionary that used in Thai Words Separation Programs extremely effects in term of speed, meanwhile the Trie structure is the most popular method that has been used in the present due to its outperform speed.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2540
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิทยาศาสตร์คอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/12636
ISBN: 9746381334
Type: Thesis
Appears in Collections:Grad - Theses

Files in This Item:
File Description SizeFormat 
Pisit_Pr_front.pdf312.7 kBAdobe PDFView/Open
Pisit_Pr_ch1.pdf279.93 kBAdobe PDFView/Open
Pisit_Pr_ch2.pdf464.89 kBAdobe PDFView/Open
Pisit_Pr_ch3.pdf245.18 kBAdobe PDFView/Open
Pisit_Pr_ch4.pdf233.66 kBAdobe PDFView/Open
Pisit_Pr_ch5.pdf243.44 kBAdobe PDFView/Open
Pisit_Pr_ch6.pdf305.07 kBAdobe PDFView/Open
Pisit_Pr_ch7.pdf191.1 kBAdobe PDFView/Open
Pisit_Pr_ch8.pdf915.74 kBAdobe PDFView/Open
Pisit_Pr_ch9.pdf245.09 kBAdobe PDFView/Open
Pisit_Pr_back.pdf255.11 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.