每日论文: MoM
每日论文: MoM: Linear Sequence Modeling with Mixture-of-Memories #20251110 模型架构 将MoE的思想搬到线性注意力上,用一个线性层为输入生成分数,然后选择top-k个记忆进行线性注意力计算.对于每个记忆,使用和计算线性注意力相同的方式计算,最后将多个记忆的结果进行加权求和.(权重是归一化后的top-k分数) ...
每日论文: MoM: Linear Sequence Modeling with Mixture-of-Memories #20251110 模型架构 将MoE的思想搬到线性注意力上,用一个线性层为输入生成分数,然后选择top-k个记忆进行线性注意力计算.对于每个记忆,使用和计算线性注意力相同的方式计算,最后将多个记忆的结果进行加权求和.(权重是归一化后的top-k分数) ...
优化的几个实体: 参数 数据集 方法(loss、lr、正则) 目的: 在数据集上做精简,选子集来代表整体数据集,保证速度和精度的平衡. 原论文用一堆推导拿到了: ...