Presentation

· Contributors · Organizations · Search Program · Flagged · Happening Now

ViTSen: Enabling Vision Transformers at the Edge Through In/Near -Sensor Processing Schemes

SessionWednesday Work-in-Progress Posters

DescriptionThis paper introduces ViTSen, optimizing Vision Transformers (ViTs) for resource-constrained edge devices. It features an in-sensor image compression technique to effectively reduce data conversion and transmission power costs. Further, ViTSen incorporates a ReRAM crossbar array, enabling efficient near-sensor analog convolution. This integration and novel pixel reading and peripheral circuitry decrease the reliance on analog buffers and converters, significantly lowering power consumption. To make ViTSen compatible, several established ViT algorithms have undergone quantization and channel reduction. Circuit-to-application co-simulation results show that ViTSen maintains accuracy comparable to a full-precision baseline across various data precisions, achieving an efficiency of approximately ~3.1 TOp/s/W.

Authors

Sepehr Tabrizchi

University of Nebraska, Lincoln

Fatemeh Raei

University of Nebraska, Lincoln

Brendan Reidy

University of South Carolina

Deniz Najafi

New Jersey Institute of Technology

Shaahin Angizi

New Jersey Institute of Technology

Ramtin Zand