The latest version of FlashAttention

Samachar AdminJul 12, 2024

NVIDIA ने हाल ही में Colfax, Together.ai, Meta और Princeton University के साथ मिलकर Grace Hopper GPU आर्किटेक्चर और Tensor Cores का उपयोग करते हुए CUTLASS 3 का उपयोग करके मुख्य Fused Attention kernels को तेजी से चलाने में महत्वपूर्ण प्रगति हासिल की है।

FlashAttention-3, FlashAttention-2 की तुलना में FP16 के साथ 1.5–2.0 गुना तेज काम करता है, जो 740 TFLOPS तक पहुँचता है। FP8 के साथ, FlashAttention-3 1.2 PFLOPS तक पहुंचता है, जिसमें बेसलाइन FP8 attention की तुलना में 2.6 गुना कम गलतियाँ होती हैं।

CUTLASS एक ओपन-सोर्स CUDA लाइब्रेरी है, जिसका उद्देश्य NVIDIA Tensor Core GPUs पर कस्टम एल्गोरिदम और अनुसंधान एवं उत्पादन काम के लिए बेहतरीन प्रदर्शन प्राप्त करना है।

इस सहयोग के बारे में अधिक जानकारी के लिए FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision पोस्ट और शोध पत्र देखें।