Scaling distributed training with adaptive summation

Saeed Maleki et al. Microsoft Research

$g = (1 - \frac{g _{1} \cdot g _{2}}{2 ∣ g _{1} ∣ ^{2}}) g_{1} + (1 - \frac{g _{1} \cdot g _{2}}{2 ∣ g _{2} ∣ ^{2}}) g_{2}$

Papers