Session

· Contributors · Organizations · Search Program · Flagged · Happening Now

Research Manuscript: It's Not 8b Retro-Gaming, It's State-Of-The-Art Architectures Using Quantization, Sparsity, and Compression!

Session Chairs

Charbel Sakr

NVIDIA

Sercan Aygun

University of Louisiana

DescriptionThis session presents state-of-the-art work in architecture design focusing on optimization techniques such as quantization, sparsity, pruning, and compression for DNN accelerators. The session begins with a series of presentations on quantization, which is an increasingly popular and energy efficient technique used for deep neural networks (DNNs). The session presents other hot topic techniques such as utilization and optimizing sparsity and pruning, with a focus on the ever-popular transformer attention architecture.

Event TypeResearch Manuscript

TimeThursday, June 2710:30am - 12:00pm PDT

Location3003, 3rd Floor

Topics

Keywords

Presentations

10:30am - 10:45am PDT	Oltron: Algorithm-Hardware Co-design for Outlier-Aware Quantization of LLMs with Inter-/Intra-Layer Adaptation Authors Chenhao Xue Chen Zhang Xun Jiang Gao ZhuTianya Yibo Lin Guangyu Sun
10:45am - 11:00am PDT	Drift: Leveraging Distribution-based Dynamic Precision Quantization for Efficient Deep Neural Network Acceleration Authors Lian Liu Zhaohui Xu Yintao He Ying Wang Huawei Li Xiaowei Li yinhe han
11:00am - 11:15am PDT	MERSIT: A Hardware-Efficient 8-bit Data Format with Enhanced Post-Training Quantization DNN Accuracy Authors Nguyen-Dong Ho Gyujun Jeong Cheol-Min Kang Seungkyu Choi Ik Joon Chang
11:15am - 11:30am PDT	DySpMM: From Fix to Dynamic for Sparse Matrix-Matrix Multiplication Accelerators Authors Hongyi Wang Kai Zhong Haoyu Zhang Shulin Zeng Zhenhua Zhu Xinhao Yang Shuang Wang Guohao Dai Huazhong Yang Yu Wang
11:30am - 11:45am PDT	Partially-Structured Transformer Pruning with Patch-Limited XOR-Gate Compression for Stall-Free Sparse-Model Access Authors Younghoon Byun Youngjoo Lee
11:45am - 12:00pm PDT	SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs Authors Zhenyu Bai Pranav Dangi Huize Li Tulika Mitra

DAC 2024