Please use this identifier to cite or link to this item: http://cuir.car.chula.ac.th/handle/123456789/1225
Title: การรู้จำตัวอักษรพิมพ์ภาษาไทยโดยการใช้กลุ่มก้อนของนิวรอลเน็ตเวิร์ก
Other Titles: Thai printed character recognition using a neural network ensemble
Authors: สุขวสา พิชิตเดช, 2521-
Advisors: บุญเสริม กิจศิริกุล
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: boonserm@cp.eng.chula.ac.th
Subjects: นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์)
การรู้จำอักขระ (คอมพิวเตอร์)
Issue Date: 2544
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์เพื่อศึกษาหาวิธีที่เหมาะสมในการใช้กลุ่มก้อนของนิวรอลเน็ตเวิร์กเพื่อใช้ในการรู้จำตัวอักษรพิมพ์ภาษาไทยที่พิมพ์จากเครื่องคอมพิวเตอร์ด้วยรูปแบบตัวอักษรมาตรฐาน กลุ่มก้อนคือกลุ่มของตัวแยกแยะที่ทำหน้าที่แยกแยะประเภทของข้อมูลโดยการรวมผลลัพธ์จากตัวแยกแยะหลายๆ ตัวเพื่อทำนายผลลัพธ์สุดท้าย ซึ่งตัวแยกแยะที่ใช้ในวิทยานิพนธ์ฉบับนี้คือ นิวรอลเน็ตเวิร์ก วิทยานิพนธ์ฉบับนี้นำเสนอวิธีการต่างๆ เพื่อใช้ในการสร้างกลุ่มก้อนของนิวรอลเน็ตเวิร์กและรวมผลลัพธ์ของกลุ่มก้อนของนิวรอลเน็ตเวิร์ก ซึ่งวิธีการที่นำเสนอนี้เป็นวิธีการรวมผลลัพธ์แบบถ่วงน้ำหนักที่เหมาะสำหรับแยกแยะที่ให้ความถูกต้องสูง คือไม่มีข้อผิดพลาด (หรือมีน้อยมาก) สำหรับข้อมูลที่สอน ผลการทดลองที่ได้แสดงให้เห็นว่าวิธีการที่นำเสนอสามารถทำงานได้อย่างดีและให้ความถูกต้องสูงกว่าวิธีอื่นๆ ที่ทดสอบในการทดลอง วิทยานิพนธ์ฉบับนี้ใช้ภาพตัวอักษรต้นแบบที่ได้จากการพิมพ์ด้วยเครื่องพิมพ์เลเซอร์ที่ความละเอียด 600 จุดต่อนิ้ว แล้วนำเอกสารมาอ่านผ่านเครื่องสแกนเนอร์ที่ความละเอียด 200 จุดต่อนิ้ว ซึ่งประกอบด้วยตัวอักษรรูปแบบ AngsanaUPC, BrowalliaUPC, CordiaUPC, DilleniaUPC, EucrosiaUPC และ FreesiaUPC โดยรูปแบบแต่ละรูปแบบจะมีตัวอักษรทั้งหมด 68 ตัว ซึ่งตัวอักษรแต่ละตัวประกอบด้วยตัวอักษรขนาด 16, 18, 20, 22, 24, 26, 28 และ 36 จุด โดยในการเรียนรู้นั้นใช้ภาพของตัวอักษรจำนวน 3264 ตัวอักษร และในการทดสอบการรู้จำ ใช้ภาพตัวอักษรที่ได้จากการนำตัวอักษรแบบไปถ่ายเอกสารให้จางลงและเข้มขึ้น ได้เป็นข้อมูลทดสอบชุดที่ 1 และ 2 ตามลำดับ รวมจำนวนตัวอักษรที่ใช้ทดสอบทั้งหมดเป็น 6528 ตัวอักษร ได้ผลการรู้จำที่มีความผิดพลาดต่ำสุดคิดเป็นร้อยละ 1.53 สำหรับข้อมูลทดสอบชุดที่ 1 และร้อยละ 1.29 สำหรับข้อมูลทดสอบชุดที่ 2
Other Abstract: The objective of this thesis is to find a suitable method for using an ensemble of neural networks in recognizing Thai printed characters recognition. An ensemble is a group of classifiers that classifies data by combining the results of these classifiers to make the final classification. The individual classifier used in this thesis is a neural network. This thesis proposes several methods for constructing the ensemble and combining the result of classifiers. This new combining method is a weighted voting method, which is suitable for accurate classifiers making no (or very little) errors on the training data. The experimental results show that our proposed method performs very well on this task and gives higher accuracy than the existing methods tested inour experiment. The method is tested on prototypic characters that are generated from a laser printer at 600 dots per inch and then are scanned with a scanner at 200 dots per inch. They are composed of characters in 6 fonts: AngsanaUPC, BrowalliaUPC, CordiaUPC, DilleniaUPC, EucrosiaUPC and FreesiaUPC. Each font consists of 68 characters and each character has 8 sizes: 16, 18, 20, 22, 24, 26, 28 and 36 points. In training process 3264 characters are used and in testing process test characters are obtained by copying the prototypic character images by a photocopy machine with lighter and darker settings. Thus, the total test set is composed of 6528 characters. The minimum error rate of recognition for the lighter images is 1.53% and the minimum error rate of recognition for the darker images is 1.29%
Description: วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2544
Degree Name: วิศวกรรมศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิศวกรรมคอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/1225
ISBN: 9740313515
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Sukwasa.pdf1.05 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.