การออกแบบและพัฒนาโปรแกรมโอซีอาร์ภาษาไทย

ชาญฤทธิ์ สันตินานาเลิศ

Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/11679

Title:	การออกแบบและพัฒนาโปรแกรมโอซีอาร์ภาษาไทย
Other Titles:	Design and development of a Thai-OCR program
Authors:	ชาญฤทธิ์ สันตินานาเลิศ
Advisors:	บุญเสริม กิจศิริกุล
Other author:	จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email:	boonserm@cp.eng.chula.ac.th, Boonserm.K@chula.ac.th
Subjects:	ภาษาไทย -- ตัวอักษร การประมวลผลภาพ นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์) การรู้จำอักขระ (คอมพิวเตอร์) แบคพรอพาเกชัน (ปัญญาประดิษฐ์) การรู้จำอักขระด้วยวิธีการทางแสง
Issue Date:	2542
Publisher:	จุฬาลงกรณ์มหาวิทยาลัย
Abstract:	วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์ เพื่อออกแบบและพัฒนาโปรแกรมโอซีอาร์ภาษาไทย เพื่อใช้ในการรู้จำตัวอักษรพิมพ์ในเอกสารภาษาไทยที่พิมพ์จากเครื่องคอมพิวเตอร์ด้วยแบบตัวอักษรมาตรฐานวิทยานิพนธ์ฉบับนี้นำเสนอวิธีการต่างๆ เพื่อใช้ในโปรแกรมโอซีอาร์ภาษาไทยคือ วิธีการประมวลผลภาพ, วิธีการตัดแยกตัวอักษร, วิธีการแยกลักษณะสำคัญของตัวอักษรแบบ เค-แอล ทรานส์ฟอร์ม, วิธีการแยกแยะตัวอักษรแบบแบคพรอพาเกชันนิวรอลเน็ตเวิร์ก และวิธีการแก้ไขคำที่สะกดผิดแบบไตรแกรมของประเภทของคำ ขั้นตอนในการทำงานของโปรแกรมโอซีอาร์ภาษาไทยที่พัฒนาขึ้นนี้ประกอบด้วย ขั้นตอนการนำเอกสารเข้าสู่โปรแกรม, ขั้นตอนการประมวลผลภาพ, ขั้นตอนการตัดแยกบรรทัด, ขั้นตอนการตัดแยกตัวอักษร, ขั้นตอนการรู้จำตัวอักษร, ขั้นตอนการแก้ไขผลลัพธ์ที่ได้จากขั้นตอนการรู้จำ, ขั้นตอนการสร้างบรรทัดและขั้นตอนการแก้ไขคำผิด ในวิทยานิพนธ์ฉบับนี้ ได้นำภาพตัวอักษรและภาพของเอกสารที่ได้จากการพิมพ์ด้วยเครื่องพิมพ์เลเซอร์ที่ความละเอียด 600 จุดต่อนิ้ว นำเอกสารมาอ่านผ่านเครื่องสแกนเนอร์ที่ความละเอียด 300 จุดต่อนิ้ว ซึ่งประกอบด้วยตัวอักษรแบบ AngsanaUPC, BrowalliaUPC, CordiaUPC, DilleniaUPC, EucrosiaUPC และ FreesiaUPC แต่ละแบบประกอบด้วยตัวอักษรขนาด 14, 16, 18, 20, 22, 24, 28 และ 36 จุด โดยในการเรียนรู้นั้นใช้ภาพของตัวอักษรจำนวน 8544 ตัวอักษร และในการทดสอบการรู้จำใช้ภาพของเอกสารจำนวน 48 เอกสาร ซึ่งประกอบด้วยตัวอักษรจำนวน 71832 ตัวอักษร ได้ผลการรู้จำซึ่งยังไม่ได้แก้ไขคำผิดมีความผิดพลาดเฉลี่ยร้อยละ 1.85 ผลการรู้จำหลังจากแก้ไขคำผิดที่ไม่เป็นคำแล้วมีความผิดพลาดเฉลี่ยร้อยละ 1.47 และผลการรู้จำหลังจากแก้ไขคำผิดที่ไม่เป็นคำและคำผิดที่เป็นคำแล้วมีความผิดพลาดเฉลี่ยร้อยละ 1.50
Other Abstract:	The objective of this thesis is to design and develop Thai-Optical Character Recognition (Thai-OCR) for recognizing printed characters in Thai documents, which are printed from a computer with standard fonts. The thesis employs several methods for Thai-OCR that are image pre-processing, character segmentation, K-L transform for feature extraction, backpropagation neural networks for character classification and part of speech trigram (pos trigram) for error correction. The process of the developed Thai-OCR program is composed of image acquisition, image processing, line segmentation, character segmentation, character recognition, character correction, text line reconstruction and error correction. In this thesis, character and document images are generated from a laser printer at 600 dots per inch and then are scanned with a scanner at 300 dots per inch. They compose of characters in 6 fonts: AngsanaUPC, BrowalliaUPC, CordiaUPC, DilleniaUPC, EucrosiaUPC and FreesiaUPC each font composed of size 14, 16, 18, 20, 22, 24, 28 and 36 points. In training process 8544 characters are used and in testing process 48 documents composed of 71832 characters are used. The error rate of recognition without error correction technique is 1.85%, the error rate of recognition with non-word error correction is 1.47% and the error rate of recognition with both non-word and real-word error correction is 1.50%.
Description:	วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2542
Degree Name:	วิทยาศาสตรมหาบัณฑิต
Degree Level:	ปริญญาโท
Degree Discipline:	วิทยาศาสตร์คอมพิวเตอร์
URI:	http://cuir.car.chula.ac.th/handle/123456789/11679
ISBN:	9743338721
Type:	Thesis
Appears in Collections:	Eng - Theses

Files in This Item:

File	Size	Format
Charnlit_Sa_front.pdf	792.05 kB	Adobe PDF	View/Open
Charnlit_Sa_ch1.pdf	844.84 kB	Adobe PDF	View/Open
Charnlit_Sa_ch2.pdf	880.96 kB	Adobe PDF	View/Open
Charnlit_Sa_ch3.pdf	805.29 kB	Adobe PDF	View/Open
Charnlit_Sa_ch4.pdf	771.16 kB	Adobe PDF	View/Open
Charnlit_Sa_ch5.pdf	685.89 kB	Adobe PDF	View/Open
Charnlit_Sa_back.pdf	2.08 MB	Adobe PDF	View/Open

Show full item record