Session

· Contributors · Organizations · Search Program · Flagged · Happening Now

Research Manuscript: Do-More-with-Less: Optimizing AI Models for Inference Efficiencies

Session Chair

DescriptionWith AI models' continued growth, inference efficiencies have become more important than ever. This session presents six papers on model optimization techniques for improving inference efficiency. The first three papers aim at optimizing the model network topology with path selection, residual optimization, and graph substitution/parallelization. The next two papers present improvements in quantization with variable-length quantization and for point-cloud networks. The sixth paper presents a novel attention mechanism for transformer models.

Event TypeResearch Manuscript

TimeWednesday, June 261:30pm - 3:00pm PDT

Location3003, 3rd Floor

Topics

Keywords

Presentations

1:30pm - 1:45pm PDT	PIVOT- Input-aware Path Selection for Energy-efficient ViT Inference Authors Abhishek Moitra Abhiroop Bhattacharjee Priyadarshini Panda
1:45pm - 2:00pm PDT	Deep Reorganization: Retaining Residuals in TinyML Authors Hashan Mendis Chih-Kai Kang Chun-Han Lin Ming-Syan Chen Pi-Cheng Hsiu
2:00pm - 2:15pm PDT	GSPO: A Graph Substitution and Parallelization Joint Optimization Framework for DNN Inference Authors Zheng Xu Xu Dai Shaojun Wei Yang Hu Shouyi Yin
2:15pm - 2:30pm PDT	On the Design of Novel Attention Mechanism for Enhanced Efficiency of Transformers Authors Sumit Jha Susmit Jha Rickard Ewetz Alvaro Velasquez
2:30pm - 2:45pm PDT	INSPIRE: Accelerating Deep Neural Networks via Hardware-friendly Index-Pair Encoding Authors Fangxin Liu Ning Yang Zhiyan Song Zongwu Wang Haomin Li Shiyuan Huang Zhuoran Song Songwen Pei Li Jiang
2:45pm - 3:00pm PDT	MoC: A Morton-Code-Based Fine-Grained Quantization for Accelerating Point Cloud Neural Networks Authors Xueyuan Liu Zhuoran Song Hao Chen Xing Li Xiaoyao Liang

DAC 2024