Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/10076
Title: การออกแบบและพัฒนาโปรแกรมการแบ่งส่วนในหน้าเอกสารสำหรับการรู้จำอักษร
Other Titles: Design and development of a page segmentation program for character recognition
Authors: นิศารัฐ พรศิริประเสริฐ
Advisors: บุญเสริม กิจศิริกุล
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: boonserm@cp.eng.chula.ac.th, Boonserm.K@chula.ac.th
Subjects: การประมวลผลภาพ -- เทคนิคดิจิตอล
การรู้จำอักขระ (คอมพิวเตอร์)
Issue Date: 2545
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์ เพื่อออกแบบและพัฒนาโปรแกรมการแบ่งส่วนในหน้าเอกสารสำหรับการรู้จำตัวอักษร เพื่อจำแนกประเภทของข้อมูลที่เป็นตัวอักษร ตาราง และรูปภาพ ออกจากกัน โดยใช้วิธีการแบ่งส่วนแบบล่างขึ้นบน และวิธีการจำแนกประเภทข้อมูลแบบเชิงสถิติ ข้อมูลภาพเอกสารที่ใช้ทดสอบ ประกอบด้วยเอกสาร 50 หน้า โปรแกรมเริ่มต้นอ่านข้อมูลทั้งหน้าเอกสาร เพื่อคำนวณหาขอบเขตของข้อมูลที่อยู่ใกล้กันรวมกันให้เป็นข้อมูลบล็อกเดียว กัน จากนั้นขอบเขตของบล็อกข้อมูลทั้งหมดจะนำมาเป็นข้อมูลเข้าสำหรับการวิเคราะห์ เพื่อจำแนกประเภทของข้อมูลที่อยู่ภายในขอบเขตนั้นตามวิธีการเชิงสถิติ ผลจากการทดลอง โปรแกรมสามารถจำแนกประเภทข้อมูล ซึ่งประกอบด้วยบล็อกของข้อมูลเป็นตัวอักษรจำนวน 7,319 บล็อก บล็อกของตารางจำนวน 22 บล็อก และบล็อกของรูปภาพจำนวน 213 บล็อก แยกความผิดพลาดเป็นภาพของตัวอักษรเฉลี่ย 1.29 เปอร์เซ็นต์ ตารางเฉลี่ย 2 เปอร์เซ็นต์ และรูปภาพเฉลี่ย 18.06 เปอร์เซ็นต์
Other Abstract: The objective of this thesis is to design and develop a program for page segmentation of document images to classify data to characters, tables, and pictures using a bottom-up method and statistical rules. The program is tested on 50 pages of document images. The program starts by reading a whole page of a document to calculate the nearest bounding box including all bounding boxes. This data is used for classification by statistical rules. From the experimental results, the program can classify data into 7,319 blocks of characters, 22 blocks of tables and 213 blocks of images. The error rates are 1.29%, 2%, 18.06% for characters, tables and pictures, respectively.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2545
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิทยาศาสตร์คอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/10076
ISBN: 9741719736
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Nisarat.pdf6.6 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.