Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/55200
Title: ระบบจัดประเภทเว็บเพจแบบอัตโนมัติที่มีพื้นฐานมาจากสถิติคำ
Other Titles: Automated Webpage Categorization System based on Word Statistics
Authors: อัษฎาวุธ ชนะกิจการโชค
Advisors: กุลธิดา โรจน์วิบูลย์ชัย
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email: Kultida.R@Chula.ac.th,june1_7@hotmail.com,Kultida.R@Chula.ac.th
Issue Date: 2559
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: เมื่อยุคข้อมูลข่าวสารมาถึง อินเทอร์เน็ตถือเป็นปัจจัยในการดำรงชีวิตอีกอย่างหนึ่ง เพราะทั้งข้อมูลข่าวสารรวมไปถึงบริการต่าง ๆ สามารถเข้าถึงได้ผ่านทางอินเทอร์เน็ต ในขณะที่ข้อมูลข่าวสารที่มีอยู่ในอินเทอร์เน็ตมีปริมาณเพิ่มขึ้นอย่างมากในแต่ละปี และการวิเคราะห์ข้อมูลขนาดใหญ่เริ่มเป็นที่จับตามองของทุกคน มีบริษัทยักษ์ใหญ่มากมาย อาทิ กูเกิล เฟสบุ๊ค อเมซอน และเน็ตฟลิกซ์ ต่างก็กำลังสนใจการนำข้อมูลที่มีอยู่มาวิเคราะห์เพื่อปรับปรุงการให้บริการให้ดียิ่งขึ้น นอกจากนี้จำนวนเว็บไซต์ที่ได้ทำการจดทะเบียนแล้วยังมีปริมาณเพิ่มขึ้นอย่างน่าเหลือเชื่อถึงหนึ่งพันล้านเว็บไซต์ เว็บไซต์หนึ่งเว็บประกอบไปด้วยเว็บเพจมากมายที่สามารถกล่าวถึงหัวข้อหลายประเภทได้ การจัดประเภทเว็บเพจนั้นจำเป็นต้องมีระบบที่สามารถใช้ในการจัดประเภทเว็บเพจได้ก่อน โดยที่ระบบจัดประเภทเว็บเพจสามารถนำไปใช้ในการคัดกรองเว็บไซต์ที่ไม่เหมาะสม ระบุความสนใจของผู้ใช้งาน และยังสามารถติดฉลากให้กับเนื้อหาแบบอัตโนมัติได้อีกด้วย ปัจจุบันมีส่วนต่อประสานโปรแกรมประยุกต์ในเชิงพาณิชย์ที่ใช้ในการจัดประเภทเว็บเพจที่สามารถจัดประเภทเว็บเพจเป็นหมวดหมู่ได้หลากหลาย ส่วนต่อประสานโปรแกรมประยุกต์เหล่านี้สามารถแบ่งออกได้เป็น 2 ชนิด ส่วนต่อประสานโปรแกรมประยุกต์กลุ่มแรกจัดประเภทจากหน้าเว็บเพจแรกของหน้าเว็บไซต์ที่เรียกว่าโฮมเพจเท่านั้น ส่วนต่อประสานโปรแกรมประยุกต์กลุ่มที่สองที่จัดประเภทเนื้อหาในหน้าเว็บเพจโดยเฉพาะ เนื่องจากส่วนต่อประสานโปรแกรมประยุกต์ในกลุ่มที่สองจัดประเภทเนื้อหาโดยมีพื้นฐานจากเนื้อหาที่อยู่ภายใน ไม่ใช่แค่หน้าโฮมเพจเท่านั้น ส่วนต่อประสานโปรแกรมประยุกต์ในในกลุ่มที่สองมีแนวโน้มที่จะให้ความแม่นยำมากกว่า จากการศึกษาที่ผ่านมาพบว่า ส่วนต่อประสานโปรแกรมประยุกต์ที่มีอยู่ในท้องตลาดไม่สามารถจัดประเภทเว็บเพจโดยการพิจารณาเนื้อหาที่เป็นภาษาไทยได้ และในงานวิจัยที่ผ่านมาไม่ได้พิจารณาเรื่องความเร็วในการประมวลผลและการทำเป็นระบบอัตโนมัติที่รองรับการวิเคราะห์เว็บเพจจากการจราจรทางเครือข่ายอินเทอร์เน็ตจริงได้ จากปัญหาที่กล่าวมาในข้างต้น งานวิจัยนี้จึงได้เสนอระบบจัดประเภทเว็บเพจแบบอัตโนมัติที่มีพื้นฐานมาจากสถิติคำ ระบบนี้จะทำการประมวลผลข้อมูลจากยูอาร์แอลดิบและทำการจัดประเภทเนื้อหา ยิ่งไปกว่านั้นระบบนี้สามารถรองรับทั้งภาษาไทยและภาษาอังกฤษและรองรับการจัดประเภทเว็บเพจที่มีปริมาณมากได้ ระบบนี้ประกอบไปด้วยระบบย่อย 2 ระบบ ระบบย่อยแรกคือระบบสกัดคำสำคัญอัตโนมัติ ระบบย่อยนี้ใช้สำหรับสกัดคำสำคัญในเนื้อหาของเว็บเพจเพื่อที่จะนำไปใช้สร้างพจนานุกรม ซึ่งพจนานุกรมนี้จะถูกใช้ในระบบย่อยที่สอง ระบบย่อยที่สองคือระบบจัดประเภทเว็บเพจ ระบบย่อยนี้จะทำการประมวลผลข้อมูลดิบและทำการจัดประเภทเนื้อหาไปยังหมวดหมู่ที่เหมาะสม ผลลัพธ์ของระบบมีค่าประสิทธิภาพโดยรวมมากถึงร้อยละ 99 และใช้เวลาในการประมวลผลโดยรวมร้อยกว่าอัลกอริทึมอื่น ยิ่งไปกว่านั้นงานวิจัยยังแสดงให้เห็นว่าระบบนี้สามารถจัดประเภทเว็บเพจด้วยวิธีการที่ง่ายแต่ได้ผลดี
Other Abstract: Since the information era has come, the Internet has become one of our living factors because every information and services can be accessed though the Internet. While the information in the Internet has been dramatically increasing among a year and the trend of big data has already been kept eyes on from everyone. A number of big companies such as Google, Facebook, Amazon, and Netflix are also interested in analyzing their data for improving their services. Additionally, the number of registered websites are incredibly increasing up to one billion websites. A website can contain many webpages which can be talked about different topics. To classify each webpage, webpage categorization system is needed. The webpage categorization system can be used for filtering inappropriate websites, identifying user interests, and also automatically labeling contents. There are various commercial webpage categorization APIs which can classify webpages into a number of categories. They can be grouped into 2 types. The first group is to classify only the first webpage, so-called “home page”, of the website. The second group is to classify the contents inside the particular webpage. Since the second group classifies the webpage based on the contents inside, not just the home page, the second group tends to achieve more accuracy. To the best of our knowledge, the existing commercial webpage categorization APIs have not been able to categorize the webpage by considering Thai contents and the previous researches have not considered the computation time and the automated system which can preserve the real Internet traffic. From the above-mentioned problems, this research proposes an automated webpage categorization system based on word statistics. This system will preprocess data from the raw URLs and then categorize the contents. Furthermore, it can support both Thai and English languages and also preserve the high Internet traffic volume. This system has 2 sub-systems. The first sub-system is automatic keyword extraction system. It is used to extract the keywords in the content of categorized webpage for creating the dictionary. The dictionary is used in the second sub-system. The second sub-system is webpage categorization system. It is used to preprocess raw data and categorize the content into the appropriate category. The result of the system can yield the F-Measure up to 0.99 and spend less overall computation time than other existing algorithms. Moreover, this research show that this system can categorize webpages with the simple but powerful technique.
Description: วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2559
Degree Name: วิศวกรรมศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: วิศวกรรมคอมพิวเตอร์
URI: http://cuir.car.chula.ac.th/handle/123456789/55200
URI: http://doi.org/10.58837/CHULA.THE.2016.977
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2016.977
Type: Thesis
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
5870279421.pdf4.14 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.