Blog

The latest version of FlashAttention

NVIDIA ने हाल ही में Colfax, Together.ai, Meta और Princeton University के साथ मिलकर Grace Hopper GPU आर्किटेक्चर और Tensor Cores का उपयोग करते हुए CUTLASS 3 का उपयोग करके मुख्य Fused Attention kernels को तेजी से चलाने में महत्वपूर्ण प्रगति हासिल की है।

FlashAttention-3, FlashAttention-2 की तुलना में FP16 के साथ 1.5–2.0 गुना तेज काम करता है, जो 740 TFLOPS तक पहुँचता है। FP8 के साथ, FlashAttention-3 1.2 PFLOPS तक पहुंचता है, जिसमें बेसलाइन FP8 attention की तुलना में 2.6 गुना कम गलतियाँ होती हैं।

CUTLASS एक ओपन-सोर्स CUDA लाइब्रेरी है, जिसका उद्देश्य NVIDIA Tensor Core GPUs पर कस्टम एल्गोरिदम और अनुसंधान एवं उत्पादन काम के लिए बेहतरीन प्रदर्शन प्राप्त करना है।

इस सहयोग के बारे में अधिक जानकारी के लिए FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision पोस्ट और शोध पत्र देखें।

Hi, I’m Samachar Admin

Leave a Reply

Your email address will not be published. Required fields are marked *