Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/5609
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | บุญเสริม กิจศิริกุล | - |
dc.contributor.other | จุฬาลงกรณ์มหาวิทยาลัย. ภาควิชาวิศวกรรมคอมพิวเตอร์ | - |
dc.date.accessioned | 2008-01-25T09:52:41Z | - |
dc.date.available | 2008-01-25T09:52:41Z | - |
dc.date.issued | 2541 | - |
dc.identifier.uri | http://cuir.car.chula.ac.th/handle/123456789/5609 | - |
dc.description.abstract | รายงานนี้แสดงการประยุกต์ใช้วิธีการทางสถิติในการกำกับหมวดคำให้กับคำในคลังข้อความภาษาไทย เนื่องจากคำในภาษาไทยเขียนติดต่อกันโดยไม่มีเครื่องหมายแบ่งคำ ดังนั้นการศึกษาวิธีกำกับหมวดคำของคลังข้อความภาษาไทยจึงต้องศึกษาการตัดคำร่วมด้วย ในงานวิจัยนี้เราใช้แบบจำลองไตรแกรมทั้งในการตัดคำและการกำกับหมวดคำ ผลการทดลองแสดงให้เห็นว่าแบบจำลองไตรแกรมใช้ได้อย่างมีประสิทธิผลในการตัดคำและการกำกับหมวดคำด้วยเปอร์เซนต์ความถูกต้องที่สูง รายงานนี้ยังแสดงการใช้ประโยชน์ของคลังข้อความที่มีหมวดคำกำกับแล้วในงาน 2 ประเภท คือ การแก้ไขคำผิดที่เกิดจาก OCR ภาษาไทยและการระบุคำที่ไม่รู้จักในภาษาไทย ผลการทดลองในงานทั้งสองแสดงให้เห็นถึงความสำเร็จในการใช้คลังข้อความที่มีหมวดคำกำกับโดยให้ผลความถูกต้องที่สูงทั้งในการแก้ไขคำผิดของ OCR และการระบุคำที่ไม่รู้จัก | en |
dc.description.abstractalternative | This report shows the method of statistical technique for part-of-speech tagging of words in Thai corpus. As in Thai language, words are written consecutively without delimiters, the study of tagging of a Thai corpus has to incorporate of word segmentation. Here we approach the problems of word segmentation as well as part-of-speech tagging by using trigram model. Experimental results show that the trigram model effectively performs word segmentation and part-of-speech tagging with high accuracy. The report also demonstrates the use of the tagged corpus in two applications; i.e., Thai OCR error correction and Thai unknown word identification. The experiments on these applications show the successful use of the tagged corpus by obtaining high accuracy of OCR error correction and unknown word identification. | en |
dc.description.sponsorship | ทุนงบประมาณแผ่นดิน ปี 2540 | en |
dc.format.extent | 3704330 bytes | - |
dc.format.mimetype | application/pdf | - |
dc.language.iso | th | es |
dc.publisher | จุฬาลงกรณ์มหาวิทยาลัย | en |
dc.rights | จุฬาลงกรณ์มหาวิทยาลัย | en |
dc.subject | การประมวลผลภาษาธรรมชาติ (คอมพิวเตอร์) | en |
dc.subject | ภาษาไทย -- การแปลภาษาด้วยเครื่อง | en |
dc.title | การกำกับหมวดคำสำหรับข้อความภาษาไทย | en |
dc.type | Technical Report | es |
dc.email.author | boonserm@cp.eng.chula.ac.th, Boonserm.K@chula.ac.th | - |
Appears in Collections: | Eng - Research Reports |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
boonserm.pdf | 3.62 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.