DSpace Repository

Single image super-resolution using capsule generative adversarial network

Show simple item record

dc.contributor.advisor Supavadee Aramvith
dc.contributor.author Amir Hajian
dc.contributor.other Chulalongkorn University. Faculty of Engineering
dc.date.accessioned 2023-08-04T07:35:36Z
dc.date.available 2023-08-04T07:35:36Z
dc.date.issued 2021
dc.identifier.uri https://cuir.car.chula.ac.th/handle/123456789/83050
dc.description Thesis (Ph.D.)--Chulalongkorn University, 2021
dc.description.abstract The current research aims to investigate and propose a Generative Adversarial Network (GAN) architecture [53] using capsule network architecture [76] in the discriminator module of the proposed model (Caps-GAN) for Single Image Super-Resolution. Besides, the study aims to develop the proposed SR framework in three scale factors. Finally, the performance of Caps-GAN is compared with other state-of-the-art models. Our Caps-GAN model consists of three fundamental components: the generator module, capsule discriminator module, and combinations of loss functions based on the GAN concept. The proposed generator utilizes the residual in residual dense blocks (RRDB) architecture [28] under a progressively up-sampling framework [30]. At the same time, the depth-wise bottleneck projections concept [38] is employed to transfer the high-frequency details of the early layer to each up-sampling stage to prevent gradient vanishing. Additionally, a novel fusion objective function that combines Multi-level SSIM loss and L2 loss (MS-SSIM + L2) is introduced to improve the quantitative and qualitative results and reconstruct the sophisticated details. In our Caps-GAN model, the CNN-based discriminator has been replaced with the capsule network architecture. Duo to the capability of the capsule network to extract the hierarchical feature relationships, our capsule discriminator demonstrates superior performance in extracting difficult-to-learn patterns in training our model. This capability leads to training our GAN model much better and faster than the CNN-based discriminator. The capsule discriminator is trained with GAN loss [28], and the generator is trained with a perceptual loss [8]. Our perceptual loss consists of two types of losses including a content loss (pre-trained model) for producing the overall appearance of the image, and an adversarial loss for producing high-frequency details of texture.  The quantitative and visual evaluations are based on five benchmark datasets including, Set5, Set14, BSDS100, Urban100, Manag109, and DIV2K. For quantitative comparison, the quality metrics including PSNR and SSIM, and the MOS test for visual comparison at two scales.
dc.description.abstractalternative การวิจัยนี้ มีจุดมุ่งหมายเพื่อตรวจสอบและนำเสนอ ภายใต้สถาปัตยกรรม โครงข่ายแบบเจเนอเรทีฟแอดเวอเซอเรียล (Generative Adversarial Network : GAN) [53] โดยใช้สถาปัตยกรรมโครงข่ายแคปซูล [76] ในโมดูลแยกแยะของแบบจำลองแบบ Caps-GAN สำหรับการสร้างคืนภาพความละเอียดสูงยิ่งยวด นอกจากนี้ การศึกษานี้มีวัตถุประสงค์ เพื่อพัฒนากรอบการทำงานการสร้างคืนภาพความละเอียดสูงยิ่งยวด ในอัตราขยายภาพ 3 ขนาด และมีการวัดประสิทธิภาพของ Caps-GAN ก็ถูกนำมาเปรียบเทียบกับวิธีการอื่นๆ อีกด้วย โมเดล Caps-GAN ของเราประกอบด้วยส่วนประกอบพื้นฐาน 3 ส่วน คือ โมดูลตัวสร้าง โมดูลแยกแคปซูล และการรวมกันของฟังก์ชันการสูญเสียตามแนวคิด GAN โมดูลตัวสร้างที่นำเสนอ ใช้ส่วนข้อมูลที่เหลือในสถาปัตยกรรมบล็อกหนาแน่นตกค้าง (RRDB) [28] ภายใต้กรอบการสุ่มตัวอย่างแบบก้าวหน้า [30] ในขณะที่แนวคิดการประมาณการคอขวดเชิงลึก [38] ใช้เพื่อถ่ายโอนข้อมูลรายละเอียดความถี่สูงของชั้นข้อมูลช่วงต้น ไปยังแต่ละขั้นตอนการสุ่มตัวอย่าง เพื่อป้องกันไม่ให้เกรเดียนต์หายไป และฟังก์ชันวัตถุประสงค์ฟิวชั่นแบบใหม่ที่รวมการสูญเสีย SSIM หลายระดับและการสูญเสีย L2 (MS-SSIM + L2) เพื่อปรับปรุงผลลัพธ์เชิงปริมาณและเชิงคุณภาพตลอดจนการสร้างรายละเอียดที่ซับซ้อนขึ้นใหม่ ในโมเดล Caps-GAN ของเรามี โมดูลแยกแยะภายใต้โครงข่ายประสาทเทียม ซึ่งถูกแทนที่ด้วยสถาปัตยกรรมเครือข่ายแคปซูล ในการดึงความสัมพันธ์ของคุณลักษณะแบบลำดับชั้น ตัวแยกแยะแคปซูลของเราแสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในการสกัดข้อมูล ที่ข้อมูลมีซับซ้อนและความยากเรียนรู้ ส่วนในการฝึกอบรมแบบจำลองของเรา แสดงให้เห็นว่ามีความสามารถในการฝึกอบรมโมเดล GAN ของได้ดีขึ้นและรวดเร็วขึ้น เมื่อเทียบกับผู้จำแนกตาม ภายใต้โครงข่ายประสาทเทียมอื่น โมดูลแยกแยะแบบแคปซูลที่ได้รับการฝึกฝนด้วยการสูญเสีย GAN [28] และโมดูลแยกแยะได้รับการฝึกฝนด้วยการสูญเสียการรับรู้ [8] การสูญเสียการรับรู้ของเราประกอบด้วยการสูญเสีย 2 ประเภท ได้แก่ การสูญเสียเนื้อหาที่ใช้แบบจำลองที่ได้รับการฝึกอบรมล่วงหน้า สำหรับการสร้างลักษณะโดยรวมของภาพ และการสูญเสียที่เป็นปฏิปักษ์สำหรับการสร้างรายละเอียดของพื้นผิวความถี่สูง การประเมินเชิงปริมาณและคุณภาพนั้น ใช้ชุดข้อมูลภาพมาตรฐานห้าชุด ได้แก่ Set5, Set14, BSDS100, Urban100, Manag109 และ DIV2K สำหรับการเปรียบเทียบเชิงปริมาณ เมตริกคุณภาพ ได้แก่ PSNR และ SSIM ตลอดจนการทดสอบ MOS สำหรับการเปรียบเทียบด้วยคุณภาพกับอัตราขยาย 2 ขนาด
dc.language.iso en
dc.publisher Chulalongkorn University
dc.relation.uri http://doi.org/10.58837/CHULA.THE.2021.128
dc.rights Chulalongkorn University
dc.title Single image super-resolution using capsule generative adversarial network
dc.title.alternative การสร้างคืนภาพความละเอียดสูงยิ่งยวดโดยใช้โครงข่ายปรปักษ์ก่อกำเนิดแบบแคปซูล
dc.type Thesis
dc.degree.name Doctor of Philosophy
dc.degree.level Doctoral Degree
dc.degree.discipline Electrical Engineering
dc.degree.grantor Chulalongkorn University
dc.identifier.DOI 10.58837/CHULA.THE.2021.128


Files in this item

This item appears in the following Collection(s)

Show simple item record