Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/1388
Title: การรู้จำตัวอักษรไทยโดยใช้ซัพพอร์ตเวกเตอร์แมชชีนและเคอร์เนล
Other Titles: Thai character recognition using Support Vector Machines and Kernels
Authors: พัฒนชัย เบศรภิญโญวงศ์, 2521-
Advisors: บุญเสริม กิจศิริกุล
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: boonserm@cp.eng.chula.ac.th, Boonserm.K@chula.ac.th
Subjects: การรู้จำอักขระ (คอมพิวเตอร์)
การรู้จำอักขระด้วยวิธีการทางแสง
ภาษาไทย--ตัวอักษร
Issue Date: 2545
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: ปรับปรุงความถูกต้องในการรู้จำของโปรแกรมโอซีอาร์ภาษาไทย โดยได้นำเอาเทคนิคของซัพพอร์ตเวกเตอร์แมชชีน (เอสวีเอ็ม) และเคอร์เนลเข้ามาประยุกต์ใช้ในส่วนของการวิเคราะห์องค์ประกอบสำคัญของข้อมูล ซึ่งเป็นกระบวนการที่สำคัญในการดึงเอาลักษณะสำคัญของข้อมูลรูปภาพตัวอักษร ก่อนที่จะส่งข้อมูลที่ได้ไปยังส่วนรู้จำของโปรแกรมโอซีอาร์ เพื่อแยกแยะว่าเป็นตัวอักษรชนิดใดต่อไป โดยเรียกเทคนิคการวิเคราะห์องค์ประกอบสำคัญของข้อมูลแบบใหม่นี้เรียกว่า การวิเคราะห์องค์ประกอบสำคัญของข้อมูลแบบเคอร์เนล ในวิทยานิพนธ์ฉบับนี้ ได้แบ่งรูปภาพที่ใช้ทดสอบออกเป็นสองกลุ่ม คือรูปภาพชุดเรียนรู้จำนวน 8,544 ตัว และรูปภาพชุดทดสอบจำนวน 1,424 ตัว ประกอบด้วยตัวอักษรแบบ AngsanaUPC, BrowalliaUPC, CordiaUPC, DilleniaUPC, EucrosiaUPC และ FreesiaUPC แต่ละแบบประกอบด้วยตัวอักษรขนาด 14, 16, 18, 20, 22, 24, 28 และ 36 จุด ผลของการทดสอบพบว่า ผลของการรู้จำของโปรแกรมโอซีอาร์ภาษาไทย ที่ใช้เทคนิคของการวิเคราะห์องค์ประกอบสำคัญของข้อมูลแบบเคอร์เนล ให้ผลการรู้จำที่ดีขึ้นจากโปรแกรมโอซีอาร์ภาษาไทยตัวเดิม อย่างไรก็ตาม วิธีใหม่นี้กลับใช้หน่วยความจำและเวลาที่เพิ่มขึ้นจากเดิม
Other Abstract: To improve the accuracy of a Thai Optical Character Recognition (Thai-OCR) program. We extend the Principal Component Analysis method, which is used to extract features from character images, to a new method called Kernel Principal Component Analysis by using Support Vector Machines and Kernels. In this thesis, we divided the data into 2 groups: the training set of 8,544 character images and the test set of 1,424 character images. In our experiment, the data set consists of character images from 6 fonts: AngsanaUPC, BrowalliaUPC, CordiaUPC, DilleniaUPC, EucrosiaUPC and FreesiaUPC each font composed of size 14, 16, 18, 20, 22, 24, 28 and 36 points. The experimental results show that Thai-OCR which uses Kernel Principal Component Analysis gives better results than the previous one using the original Principal Component Analysis. However, the new method consumes more memory space and processing time.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2545
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิทยาศาสตร์คอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/1388
ISBN: 9741716214
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Patanachai.pdf1.05 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.