Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/46062
Title: | การระบุตำแหน่งข้อความภาษาไทยในภาพถ่ายฉากธรรมชาติ |
Other Titles: | THAI TEXT LOCALIZATION IN NATURAL SCENE IMAGES |
Authors: | ธนานพ กอบชัยสวัสดิ์ |
Advisors: | ธนารัตน์ ชลิดาพงศ์ |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Advisor's Email: | Thanarat.C@chula.ac.th |
Subjects: | การประมวลผลภาพ -- เทคนิคดิจิทัล Image processing -- Digital technique |
Issue Date: | 2557 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | งานวิจัยนี้นำเสนอวิธีการระบุตำแหน่งข้อความภาษาไทยจากภาพถ่ายฉากธรรมชาติ โดยใช้เทคนิคการเรียนรู้ของเครื่องจักรที่สามารถเรียนรู้ตัวสกัดคุณลักษณะสำคัญได้จากชุดข้อมูลสอน ร่วมกับเทคนิคการประมวลผลภาพ สามารถทำงานได้อย่างอัตโนมัติโดยไม่ต้องอาศัยการกำหนดค่าเริ่มต้นก่อนการทำงาน ขั้นตอนวิธีที่นำเสนอนั้นประกอบไปด้วย 4 ขั้นตอนหลักคือ การประมวลผลก่อน การสร้างแผนภาพความเชื่อมั่นของบริเวณที่มีข้อความ การรวมผลจากตัวจับข้อความ และการประมวลผลภายหลัง ขั้นตอนการประมวลก่อนนั้น จะสร้างภาพนำเข้าหลายขนาดและปรับปรุงคุณภาพของภาพนำเข้า ให้มีความเหมาะสมก่อนนำไปสร้างแผนภาพความเชื่อมั่นของบริเวณที่มีข้อความ ซึ่งในขั้นตอนนี้จะใช้ตัวจำแนกประเภทที่ได้จากการเรียนรู้ของเครื่องจักรที่สามารถเรียนรู้ตัวสกัดคุณลักษณะสำคัญได้จากชุดข้อมูลสอน ในการจำแนกระหว่างบริเวณที่เป็นข้อความและไม่ใช่ข้อความในแต่ละขนาดของภาพนำเข้า หลังจากนั้นจะทำการรวมแผนภาพความเชื่อมั่นของบริเวณที่มีข้อความในแต่ละขนาดของภาพนำเข้า ซึ่งนำไปสู่ขั้นตอนสุดท้ายที่จะนำแผนภาพนี้ไปสร้างสมมุติฐานของบรรทัดของบริเวณที่มีข้อความและทำการประมวลผลภายหลัง โดยมีขั้นตอนที่ถูกออกแบบสำหรับการวิเคราะห์ข้อความภาษาไทย เพื่อสร้างกรอบของบริเวณที่มีข้อความปรากฏอยู่ในภาพนำเข้า ผลการทดลองบนชุดข้อมูลทดสอบมาตรฐานภาษาอังกฤษ ชุดข้อมูลทดสอบภาษาไทยและภาษาอังกฤษจากการแข่งขัน BEST 2015 : การแข่งขันสุดยอดการหาตำแหน่งข้อความบนภาพถ่าย ที่จัดขึ้นโดย ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ และชุดข้อมูลผสมระหว่างภาษาไทยและภาษาอังกฤษที่จัดหาโดยผู้วิจัยพบว่า ขั้นตอนวิธีที่ทำการเสนอนี้สามารถทำงานได้อย่างมีประสิทธิภาพ สามารถระบุตำแหน่งข้อความในหลายสถานการณ์ เช่น ภาพที่มีปรากฏการมัวจากการเคลื่อนที่ ข้อความที่ปรากฏในภาพมีความหลากหลายทั้งในแง่ของรูปแบบของอักษรและการจัดเรียง ข้อความ และข้อความที่มีฉากหลังที่ซับซ้อน จากผลการทดลองบนชุดข้อมูลทดสอบที่เสนอทั้งหมดนั้น จะได้ค่าความเที่ยงเฉลี่ย 73% ค่ารีคอลเฉลี่ย 70% และค่าการวัดเอฟเฉลี่ย 72% |
Other Abstract: | This research proposes a method to locate Thai natural scene text. The method uses a trainable feature extractor machine learning and image processing techniques. The system works automatically without prior configuation. The proposed method is consisted of 4 main steps, preprocessing, text confidence maps construction, text confidence map merging and postprocessing. In the preprocessing step, the multi-scaled input images are constructed together with image enhancement to improve quality of input image. The text confidence map construction step uses the trained text detector to classify between text and non-text areas. Then text confidence map for each scaled input image is built and merged to acquire a final input image text confidence map. Finally, in the postprocessing stage, the estimated text lines are calculated collaborating with Thai text analysis to generate final text bounding boxes. The experimental results on standard English test datasets, BEST 2015 : Text Location Detection Contest dataset and our mixed Thai-English dataset show that our proposed method can locate natural scene text in many scenarios. For examples, texts in blur images, multiple text orientations, various text styles, text with the effects of perspective distortion, and texts on complex background. From the experimental results on selected datasets, we get average precision 73%, average recall 70% and average f-measure 72%. |
Description: | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2557 |
Degree Name: | วิศวกรรมศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิศวกรรมคอมพิวเตอร์ |
URI: | http://cuir.car.chula.ac.th/handle/123456789/46062 |
URI: | http://doi.org/10.14457/CU.the.2014.806 |
metadata.dc.identifier.DOI: | 10.14457/CU.the.2014.806 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
5570544421.pdf | 7.11 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.