MLA Cost Analysis & Regime Guide

Regime Selection

Regime	s Range	Best Kernel	Why
Decode	s=1	FlashMLA	16x latency reduction vs FlashAttention (compressed KV)
Speculative	s=2-32	MLAvar6+ or FlashMLA	MLAvar6+ should be able to beat FlashMLA and FlashAttention
Prefill	s>128	FlashAttention	Avoids 4x FLOP penalty of latent-space compute

Crossover point: FlashAttention becomes faster than FlashMLA at approximately s=16-32 for DeepSeek-V3 parameters.

Related skills