Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/16870
Title: | การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน |
Other Titles: | Noise reduction in Thai-OCR using semi-supervised learning |
Authors: | นรีพร พิรุฬห์ทรัพย์ |
Advisors: | สุกรี สินธุภิญโญ |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Advisor's Email: | sukree@cp.eng.chula.ac.th |
Subjects: | ภาษาไทย -- ตัวอักษร การประมวลผลภาพ การรู้จำอักขระ (คอมพิวเตอร์) นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์) |
Issue Date: | 2552 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | ตัวอักษรไทยเป็นหนึ่งในตัวอักษรที่มีความซับซ้อนมากที่สุด เนื่องจากการวิธีการเขียนตัวภาษาไทยนั้นตัวอักษรของตัวอักษรมีได้หลายระดับ นอกจากนั้นตัวอักษรภาษาไทยยังประกอบไปด้วยตัวอักษรขนาดเล็ก ๆ จำนวนมาก และในภาษาไทยไม่มีสัญลักษณ์ในการแบ่งคำหรือประโยค ด้วยลักษณะเฉพาะของภาษาไทยเหล่านี้ การนำวิธีการลดสิ่งรบกวนที่มีผู้นำเสนอและทดสอบว่ามีประสิทธิภาพที่ดีในการลดสิ่งรบกวนในเอกสารภาษาอังกฤษมาใช้กับเอกสารภาษาไทยกลับได้ผลลัพธ์ที่ไม่ดีนัก ดังนั้นในงานวิจัยนี้จึงเสนอวิธีการลดสิ่งรบกวนซึ่งเหมาะสมกับเอกสารภาษาไทยโดยใช้การเรียนรู้ของเครื่องแบบกึ่งสอน ผลลัพธ์ที่ได้จากการทดลองพบว่าวิธีที่นำเสนอนี้ไม่เพียงแต่สามารถลดสิ่งรบกวนในเอกสารอย่างเห็นได้ชัด ยังพบว่าตัวอักษรภาษาไทยที่มีขนาดเล็กนั้นไม่ถูกลบออกไปจากเอกสารไปด้วย |
Other Abstract: | Thai characters are one of the most complex characters since they can be aligned into different levels, are composed of a number of small components, and have no word-separating symbols. Hence, noise reduction algorithms which are successfully applied to English documents might yield a poor result from Thai documents. This paper thus proposes a novel noise reduction method that is suitable for Thai documents using a semi-supervised learning approach. Results obtained from our method shows that our method does not only obviously remove the noise but also preserve small components of Thai characters as well |
Description: | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2552 |
Degree Name: | วิทยาศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิทยาศาสตร์คอมพิวเตอร์ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/16870 |
URI: | http://doi.org/10.14457/CU.the.2009.329 |
metadata.dc.identifier.DOI: | 10.14457/CU.the.2009.329 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Nareeporn_Pi.pdf | 2.96 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.