论文笔记 | yht.life

每日论文: MoM

每日论文: MoM: Linear Sequence Modeling with Mixture-of-Memories #20251110 模型架构将MoE的思想搬到线性注意力上,用一个线性层为输入生成分数,然后选择top-k个记忆进行线性注意力计算.对于每个记忆,使用和计算线性注意力相同的方式计算,最后将多个记忆的结果进行加权求和.(权重是归一化后的top-k分数) ...

每日论文: craig #20251031

优化的几个实体: 参数数据集方法(loss、lr、正则) 目的: 在数据集上做精简,选子集来代表整体数据集,保证速度和精度的平衡. 原论文用一堆推导拿到了: ...

输入解密密钥