NVIDA’s Next Generation of FlashAttention:

NVIDIA ने हाल ही में Colfax, Together.ai, Meta और Princeton University के साथ मिलकर Grace Hopper GPU आर्किटेक्चर और Tensor Cores का उपयोग करते हुए CUTLASS 3 का उपयोग करके मुख्य Fused Attention kernels को तेजी से चलाने में महत्वपूर्ण प्रगति हासिल की है।
FlashAttention-3, FlashAttention-2 की तुलना में FP16 के साथ 1.5–2.0 गुना तेज काम करता है, जो 740 TFLOPS तक पहुँचता है। FP8 के साथ, FlashAttention-3 1.2 PFLOPS तक पहुंचता है, जिसमें बेसलाइन FP8 attention की तुलना में 2.6 गुना कम गलतियाँ होती हैं।
CUTLASS एक ओपन-सोर्स CUDA लाइब्रेरी है, जिसका उद्देश्य NVIDIA Tensor Core GPUs पर कस्टम एल्गोरिदम और अनुसंधान एवं उत्पादन काम के लिए बेहतरीन प्रदर्शन प्राप्त करना है।
इस सहयोग के बारे में अधिक जानकारी के लिए FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision पोस्ट और शोध पत्र देखें।
What is Fused Attention kernels ?
“Fused Attention Kernels” एक प्रकार के सॉफ़्टवेयर होते हैं जो कंप्यूटर्स को समझने में मदद करते हैं जब वे कठिन काम करते हैं, जैसे कि भाषा समझना या तस्वीरों को पहचानना। इन कर्नल्स की मदद से कंप्यूटर्स काम को तेजी से और सही ढंग से कर सकते हैं, ऐसे काम जहाँ उन्हें विशेष जानकारियों पर ध्यान देने की आवश्यकता होती है।