Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/1296
Title: | การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย |
Other Titles: | Improvement of compression techniques for Thai text file |
Authors: | ปิติฉัตร สุทธาโรจน์, 2520- |
Advisors: | สุวิทย์ นาคพีระยุทธ |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ |
Advisor's Email: | nsuvit@chula.ac.th |
Subjects: | การบีบอัดข้อมูล ภาษาไทย |
Issue Date: | 2545 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | วิทยานิพนธ์ฉบับนี้ ได้ศึกษาวิธีปรับปรุงความสามารถในการบีบอัดแฟ้มข้อมูลภาษาไทยสำหรับวิธีบีบอัดแบบไม่มีการสูญเสียทั้ง 3 ตระกูลที่นิยมใช้ ได้แก่ ตระกูลบีบอัดข้อมูลโดยอาศัยพจนานุกรม (LZ77 , LZW) , ตระกูลบีบอัดข้อมูลโดยอาศัยค่าทางสถิติ (PPM) และ ตระกูลบีบอัดข้อมูลโดยผ่านการแปลงเบอร์โรว์ - วีลเลอร์ (BWT) โดยเพิ่มความรู้จำเพาะทางภาษาไทยเข้าไปในการบีบอัดวิธีต่างๆ ด้วยการนำข้อมูลมาผ่านตัวตัดคำภาษาไทย แล้วจึงนำสิ่งที่ได้จากการตัดคำมาใช้ในการเข้ารหัส การนำข้อมูลจากการตัดคำมาใช้แบบแรก คือ การนำข้อมูลมาผ่านการแปลง LIPT (Length Index Preserving Transform) ซึ่งเป็นการแปลงคำที่พบให้มีความสัมพันธ์กันตามความยาวของคำ ข้อมูลที่ผ่านการแปลง LIPT จะอยู่ในรูปแบบที่ง่ายต่อการบีบอัดมากยิ่งขึ้น ทำให้วิธีบีบอัดแต่ละวิธีจะสามารถบีบอัดได้ดีกว่าข้อมูลเดิม ส่วนแบบที่สอง คือ การเข้ารหัสโดยประยุกต์วิธีบีบอัดแบบดั้งเดิมมาเข้ารหัสในหน่วยคำ ได้แก่ วิธี word-based LZW, word-based PPM และ word-based BWT ซึ่งจะเป็นการเข้ารหัสในหน่วยที่ใหญ่ขึ้น วิทยานิพนธ์ฉบับนี้ได้เปรียบเทียบผลการบีบอัดที่ปรับปรุงขึ้นกับโปรแกรมบีบอัดที่นิยมใช้ในแต่ละวิธี ได้แก่ GZIP, UNIX Compress, PPMD และ BZIP2 รวมไปถึงแสดงผลความซับซ้อนในการประมวลผลที่เพิ่มขึ้นเมื่อเพิ่มความรู้จำเพาะทางภาษาไทยลงไปทั้งในการเข้ารหัสและถอดรหัส และแสดงแนวโน้มของผลการบีบอัดในแต่ละวิธีเทียบกับขนาดข้อมูล พบว่าการปรับปรุงความสามารถสำหรับตระกูลบีบอัดข้อมูลโดยอาศัยพจนานุกรมจะได้ผลที่ดีกว่าโปรแกรม UNIX Compress และโปรแกรม GZIP ประมาณ 12% และ 4.5% ตามลำดับในทุกๆ ขนาดข้อมูล สำหรับตระกูล BWT จะสามารถปรับปรุงผลจากโปรแกรม BZIP2 ได้โดยเฉลี่ยประมาณ 2.5% สำหรับตระกูลบีบอัดข้อมูลโดยอาศัยค่าทางสถิติจะปรับปรุงได้ดีกว่าโปรแกรม PPMD ซึ่งเป็นโปรแกรมที่ให้ผลการบีบอัดดีที่สุดในปัจจุบันอีก 2.5% โดยเฉลี่ย |
Other Abstract: | This thesis studied how to improve the compressibility of Thai text file by adding Thai language knowledge to three well known lossless compression techniques, Dictionary-based technique (LZ77, LZW) Statistical-based technique (PPM) and Burrow-Wheeler Transform-based technique (BWT). Thai parser was inserted before compression to extract specific knowledge that each technique can use. First usage was to transform parsed words by LIPT (Length Index Preserving Transform) which replaced words based on their length. The transformed data had simpler form to be compressed by all techniques and improved their compression. Second usage was to use conventional lossless compression techniques in larger unit (word-based compression), i.e., word-based LZW, word-based PPM and word-based BWT. This thesis compared the improved performances of all three techniques with their well known programs, GZIP, UNIX Compress, PPMD and BZIP2. This comparison included the complexity increased in encoding and decoding when using the improved techniques, and the compression ratio dependency on file size. The improved dictionary-based technique can achieve 12% better compression than UNIX Compress and 4.5% than GZIP for all file size, the average improvement for BWT-based technique is 2.5% over BZIP2, and for statistical-based technique is 2.5% in average over PPMD which is the best text compression program. |
Description: | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2545 |
Degree Name: | วิศวกรรมศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | วิศวกรรมไฟฟ้า |
URI: | http://cuir.car.chula.ac.th/handle/123456789/1296 |
ISBN: | 9741725892 |
Type: | Thesis |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Pitichat.pdf | 1.67 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.