每日论文: MoM

每日论文: MoM: Linear Sequence Modeling with Mixture-of-Memories #20251110 模型架构 将MoE的思想搬到线性注意力上,用一个线性层为输入生成分数,然后选择top-k个记忆进行线性注意力计算.对于每个记忆,使用和计算线性注意力相同的方式计算,最后将多个记忆的结果进行加权求和.(权重是归一化后的top-k分数) ...

2025-11-10 · 2 分钟 · 504 字 · 杨浩天

每日论文: craig #20251031

优化的几个实体: 参数 数据集 方法(loss、lr、正则) 目的: 在数据集上做精简,选子集来代表整体数据集,保证速度和精度的平衡. 原论文用一堆推导拿到了: ...

2025-10-31 · 2 分钟 · 797 字 · 杨浩天

输入解密密钥