การพัฒนากรอบการประเมินและวิเคราะห์แคปช่าแบบข้อความ

สรรัตน์ ชัยกรไพบูลย์

Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/59964

Title:	การพัฒนากรอบการประเมินและวิเคราะห์แคปช่าแบบข้อความ
Other Titles:	DEVELOPMENT OF TEXT BASE CAPTCHA ANALYSIS FRAMEWORK
Authors:	สรรัตน์ ชัยกรไพบูลย์
Advisors:	เกริก ภิรมย์โสภา อัครินทร์ ไพบูลย์พานิช
Other author:	จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email:	Krerk.P@Chula.ac.th,krerk.p@chula.ac.th Akarin.P@chula.ac.th
Subjects:	แคปชา (การทดสอบด้วยการตอบสนองกลับ) ความปลอดภัยในระบบคอมพิวเตอร์ CAPTCHA (Challenge-response test) Computer security
Issue Date:	2560
Publisher:	จุฬาลงกรณ์มหาวิทยาลัย
Abstract:	งานวิจัยนี้เสนอกรอบการประเมินและวิเคราะห์แคปช่าแบบตัวอักษร การใช้อินเทอร์เน็ตเพื่อค้นหาข้อมูล ช้อปปิ้งออนไลน์ หรือทำธุรกรรมการเงินผ่านอินเทอร์เน็ตแบงค์กิ้ง บริการเหล่านี้ต้องการการรักษาความปลอดภัยเพื่อปกป้องข้อมูลส่วนบุคคลที่เป็นความลับจาก สแปม การหลอกลวงจากแฮกเกอร์ที่สร้างเว็บปลอม แคปช่าได้ถูกนำมาใช้เพื่อตรวจสอบว่าผู้ใช้เป็นมนุษย์หรือจักรกล (บ็อท) เว็บไซต์จำนวนมากใช้แคปช่าแบบตัวอักษรสำหรับตรวจสอบพิสูจน์ตัวตนโดยให้ผู้ใช้พิมพ์ตัวอักษรตามอักขระบิดเบือนเป็นตัวอักษรหรือตัวเลขหรือตัวอักษรและตัวเลขในช่องข้อความ ในการทดลองผู้วิจัยกำหนดความยาวของแคปช่าแบบตัวอักษรโดยกำหนดความยาวอักษรที่ 3, 4, 5, 6, 7, 8, 9 และ 10 ที่มีรูปแบบเป็นภาษาอังกฤษตัวใหญ่ผสมตัวเลข ผู้วิจัยทำการเก็บรูปแคปช่าตามความยาวของแต่ละแบบจำนวนอย่างละ 1,000 รูป จากเว็บไซต์ BotDetect™ CAPTCHA เพื่อให้มนุษย์ทำแบบทดสอบผ่านเว็บไซต์ที่สร้างและจักรกล (บ็อท) Tesseract และ Free-OCR online ตอบรูปแคบช่าโดยชุดแคปช่าที่ใช้ทดสอบระหว่างมนุษย์และบ็อทใช้เป็นแบบทดสอบชุดเดียวกัน ผู้ทดสอบ 1 คน จะทำแบบทดสอบ 8 ข้อ ผู้วิจัยนำเสนอประสิทธิภาพแคปช่า (CAPTCHA EFFICIENCY (CE)) ที่ได้จากการตอบแคปช่าของมนุษย์และบ็อทมาคำนวณหาส่วนต่างระหว่างแคปช่าที่ดี (มนุษย์ตอบถูกและบ็อทตอบผิด) และแคปช่าที่ไม่ดี(บ็อทตอบถูกและมนุษย์ตอบผิด) สำหรับการประเมินผลเราประเมินผลจากความยาวตัวอักษรและตัวเลขจาก 3 4 5 6 7 8 9 และ 10 ผลที่ได้แสดงให้เห็นว่ามนุษย์ และ บ็อท Tesseract มีค่า CE เท่ากับ 0.842 ที่ความยาว 9 ตัวอักษร Human และ Free-OCR.com มี CE เท่ากับ 0.921 ที่ความยาว 4 ตัวอักษร
Other Abstract:	This research proposes a framework for Text Base Captcha Analysis. We use internet for searching information, online shopping or Internet banking, everyday. These services require security to protect the confidential personal information from SPAM, Phishing or Pharming. CAPTCHA is used to verify whether a user is a human or a bot. Many websites use Text Based CAPTCHA for validation. CAPTCHA works by letting users' type distortion characters, alpha or numeric or alphanumeric, in a textbox. In our experiment, we defined the length of CAPTCHA for our survey to be: 3, 4, 5, 6, 7, 8, 9 and 10 with Capital letter and numeric image Style. We collected 1,000 images for each length from BotDetectTM CAPTCHA. Tesseract and Free-OCR online are used to represent BOTs in our experiment. We designed the survey CAPTCHA for a person to solve 8 random images. Human and BOT has to take the same survey for fairness. We propose the use of CAPTCHA EFFICIENCY (CE), the difference between human and bot in answering CAPTCHA, for evaluation. We evaluate alphanumeric lengths from 3, 4, 5, 6, 7, 8, 9 and 10. The result shows that Human and Tesseract OCR bot has CE of 0.842 at 9 characters long. Human and Free-OCR.com has CE of 0.921 in 4 characters long.
Description:	วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2560
Degree Name:	วิทยาศาสตรมหาบัณฑิต
Degree Level:	ปริญญาโท
Degree Discipline:	วิทยาศาสตร์คอมพิวเตอร์
URI:	http://cuir.car.chula.ac.th/handle/123456789/59964
URI:	http://doi.org/10.58837/CHULA.THE.2017.1267
metadata.dc.identifier.DOI:	10.58837/CHULA.THE.2017.1267
Type:	Thesis
Appears in Collections:	Eng - Theses

Files in This Item:

File	Description	Size	Format
5771014521.pdf		2.85 MB	Adobe PDF	View/Open

Show full item record