Session

· Contributors · Organizations · Search Program · Flagged · Happening Now

Research Manuscript: Efficient Acceleration Strategies for Transformers: From Token Similarity to Weight Sparsity

Session Chair

DescriptionRecent advancement in transformer models led the performance improvement in language modeling and vision tasks. Transformers are equipped with the attention mechanism that extracts useful dependency information between input tokens. Due to the nature of sequential processing, running a transformer is bounded by off-chip memory bandwidth. For vision transformers, a feedforward network that follows after the attention module further incurs significant runtime overhead. In this session, many unique approaches and their associated hardware architecture are discussed, including proactively skipping computations for tokens with low probability, leveraging token similarities, bit-slice compression technique, and exploiting sparsity in transformers.

Event TypeResearch Manuscript

TimeTuesday, June 251:30pm - 3:00pm PDT

Location3003, 3rd Floor

Topics

Keywords

Presentations

1:30pm - 1:45pm PDT	CSTrans-OPU: An FPGA-based Overlay Processor with Full Compilation for Transformer Networks via Sparsity Exploration Authors Yueyin Bai Keqing Zhao Yang Liu Hongji Wang Hao Zhou Xiaoxing Wu Jun Yu Kun Wang
1:45pm - 2:00pm PDT	FLAME: Fully Leveraging MoE Sparsity for Transformer on FPGA Authors Xuanda Lin Huinan Tian Wenxiao Xue Lanqi Ma Jialin Cao Manting Zhang Jun Yu Kun Wang
2:00pm - 2:15pm PDT	FNM-Trans: Efficient FPGA-based Transformer Architecture with Full N:M Sparsity Authors Manting Zhang Jialin Cao Kejia Shi Keqing Zhao Genhao Zhang Jun Yu Kun Wang
2:15pm - 2:30pm PDT	ViT-slice: End-to-end Vision Transformer Accelerator with Bit-slice Algorithm Authors Dongjin Shin Insu Choi Joon-Sung Yang
2:30pm - 2:45pm PDT	SpARC: Token Similarity-Aware Sparse Attention Transformer Accelerator via Row-wise Clustering Authors Han Cho Dongjun Kim Seungeon Hwang Jongsun Park
2:45pm - 3:00pm PDT	Token-Picker: Accelerating Attention in Text Generation with Minimized Memory Transfer via Probability Estimation Authors Junyoung Park Myeonggu Kang Yunki Han Yang-Gon Kim Jaekang Shin Lee-Sup Kim

DAC 2024