Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/52285
Title: การรู้จำตัวอักษรพิมพ์ภาษาไทยโดยใช้หน่วยความจำระยะสั้นแบบยาว
Other Titles: Thai printed character recognition using long short-term memory
Authors: ทวีศักดิ์ เอี่ยมสวัสดิ์
Advisors: บุญเสริม กิจศิริกุล
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: Boonserm.K@Chula.ac.th,Boonserm.K@chula.ac.th
Subjects: การรู้จำอักขระ (คอมพิวเตอร์)
Character recognition
Issue Date: 2559
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: วิธีแบ่งส่วนสำหรับการรู้จำตัวอักษรทำงานโดยการแบ่งภาพบรรทัดตัวอักษรเป็นภาพตัวอักษรและนำไปรู้จำตัวอักษรแต่ละตัวอักษร วิธีนี้ได้รับผลกระทบจากประสิทธิภาพของกระบวนการแบ่งส่วนในปัญหาตัวอักษรที่เชื่อมติดกันหรือตัวอักษรที่บางส่วนขาดหายอย่างมาก ในขณะที่วิธีไม่แบ่งส่วนจะทำการรู้จำภาพบรรทัดตัวอักษรโดยไม่แบ่งส่วนภาพตัวอักษรแต่ละตัว วิธีนี้เหมาะสมกับภาษาอย่างเช่นภาษาไทยที่ประกอบด้วยตัวอักษรที่เชื่อมติดกันจำนวนมาก เป้าหมายของวิทยานิพนธ์นี้คือการประยุกต์ใช้หน่วยความจำระยะสั้นแบบยาว ซึ่งเป็นวิธีไม่แบ่งส่วนในการรู้จำตัวอักษรภาษาไทย นอกจากนี้วิทยานิพนธ์นำเสนอวิธีการเลื่อนองค์ประกอบแนวตั้ง ในการแก้ไขปัญหารูปแบบการรวมกันของตัวอักษรที่เกิดขึ้นแนวตั้งจำนวนมากบนโครงสร้างตัวอักษรสี่ระดับของภาษาไทย และยากต่อการนำมาใช้กับโครงข่ายหน่วยความจำระยะสั้นแบบยาวมาตรฐาน ผลการทดลองแสดงค่าความแม่นยำเปรียบเทียบวิธีที่นำเสนอบนโครงข่ายหน่วยความจำระยะสั้นแบบยาวมาตรฐาน กับซอฟต์แวร์เชิงพาณิชย์ในการรู้จำตัวอักษรภาษาไทย
Other Abstract: The segmentation-based approach for Optical Character Recognition (OCR) works by first segmenting a text line image into individual character images and then recognizing the characters. The approach relies heavily on the performance of the segmentation process and thus suffers from the problem of touching and broken characters. On the other hand, the unsegmented approach for OCR processes the text line image without segmenting the image into individual characters, and the approach is more suitable for languages such as Thai that contains a lot of touching characters in nature. This thesis proposes an application of Long Short-Term Memory (LSTM), which is an unsegmented method, to Thai OCR. The thesis also introduces a method called vertical component shifting to solve the problem of a large number of vertically occurring character combinations that occur in four-level writing system of Thai, and pose difficulty for standard LSTM networks. The experimental results demonstrate the better accuracy of our proposed method over standard LSTM networks and other commercial software for Thai OCR.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2559
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิทยาศาสตร์คอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/52285
URI: http://doi.org/10.58837/CHULA.THE.2016.825
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2016.825
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
5770420421.pdf4.73 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.