Abstract:
รายงานนี้แสดงการประยุกต์ใช้วิธีการทางสถิติในการกำกับหมวดคำให้กับคำในคลังข้อความภาษาไทย เนื่องจากคำในภาษาไทยเขียนติดต่อกันโดยไม่มีเครื่องหมายแบ่งคำ ดังนั้นการศึกษาวิธีกำกับหมวดคำของคลังข้อความภาษาไทยจึงต้องศึกษาการตัดคำร่วมด้วย ในงานวิจัยนี้เราใช้แบบจำลองไตรแกรมทั้งในการตัดคำและการกำกับหมวดคำ ผลการทดลองแสดงให้เห็นว่าแบบจำลองไตรแกรมใช้ได้อย่างมีประสิทธิผลในการตัดคำและการกำกับหมวดคำด้วยเปอร์เซนต์ความถูกต้องที่สูง รายงานนี้ยังแสดงการใช้ประโยชน์ของคลังข้อความที่มีหมวดคำกำกับแล้วในงาน 2 ประเภท คือ การแก้ไขคำผิดที่เกิดจาก OCR ภาษาไทยและการระบุคำที่ไม่รู้จักในภาษาไทย ผลการทดลองในงานทั้งสองแสดงให้เห็นถึงความสำเร็จในการใช้คลังข้อความที่มีหมวดคำกำกับโดยให้ผลความถูกต้องที่สูงทั้งในการแก้ไขคำผิดของ OCR และการระบุคำที่ไม่รู้จัก