3.c. 浮点映射

根据我们对低精度定点环境中有限数精度的研究,我们发现通过在使用随机梯度下降时仅使用16位表示来控制舍入方案,我们可以更快地训练模型而不会损害任何精度。
Limited Precision Arithmetic 有限精度算术: 基于反向传播的深度学习系统的标准执行通常利用实数的32位浮点表示来进行数据存储和控制。 我们通过表示[IN.FR]来抽象这个问题,其中IN和FR分别与数字的整数和小数部分相关。 数字位数(NB)加上小数位数(FB)产生用于表示整数的总位数。 NB + FB的总和称为字长WL。
Stochastic rounding 随机四舍五入: 给定数字x和目标定点表示 <NB, FB>. 我们定义 \(\left\lfloor x \right\rfloor\) 作为最大的整数倍 \(\theta\left(=2^{-FB}\right)\) <= x. S随机舍入是一种无偏舍入方案,并具有预期的舍入误差为零的理想特性, i.e. E(Round(x, <NB,FB>)) = x
                    所以, P(rounding x to \(\left\lfloor x \right\rfloor\)) 相对于x的近似值 \(\left\lfloor x \right\rfloor\):
                     \(Round(x, <NB,FB>) = \begin{cases} \left\lfloor x \right\rfloor, & \text{if } 1 - \dfrac{x - \left\lfloor x \right\rfloor}{\theta}, \\ \left\lfloor x \right\rfloor + \theta, & \dfrac{x-\left\lfloor x \right\rfloor}{\theta}. \end{cases}\)
     
                    然后,
                        \(Convert(x, <NB,FB>) = \begin{cases} -2^{NB-1}, & \text{if } x <= -2^{NB-1}, \\ 2^{NB-1}-2^{-FB}, & \text{if } x >= 2^{NB-1} - 2^{-FB}. \\ Round(x, <NB,FB>), & otherwise.\end{cases}\)
Multiply and accumulate operation 乘以和累加运算: 考虑两个二维的向量 d 和 h 这样每个向量都以固定的定点表示 <NB,FB>,  然后定义 e = d.h 作为d和h的内积空间. 然后我们可以将计算分成以下步骤:
                    \(z= \sum_{i=1}^{d} a_{i}b_{i}\)
                    \(c_{0} = Convert(z, <NB,FB>)\) 

3.d. 超参数路由

gPredict的活动是找到一个最接近的标量,可能是随机函数的最佳估计,而不是对该函数的可能参数的排列。 虽然许多捆绑包期望这些数据源是从向量空间中提取的,但gPredict的独特之处在于它促使开发人员更详细地描绘搜索空间。 通过提供有关函数表征位置的更多数据以及最佳质量的位置,gPredict可以更有效地搜索最佳参数。