1月21日消息,The Information在本月初曾爆料,DeepSeek计划于今年2月中旬农历新年前后推出其新一代旗舰AI模型DeepSeek V4,该模型将拥有更出色的代码编写能力。
1月20日,恰逢DeepSeek-R1发布一周年之时,有开发者留意到DeepSeek在GitHub上更新了一批FlashMLA相关代码,在涉及的114个文件里,有28处都提及了一个尚未明确的“MODEL1”大模型标识。
这个标识符常与已有的“V32”模型(也就是DeepSeek-V3.2)被一同提及或加以区分。从代码的上下文来看,“MODEL1”大概率是指一个和现有架构不同的新模型。
开发者分析指出,“MODEL1”和“V32”在关键技术层面存在差异,主要表现在键值(KV)缓存的布局形式、稀疏性的处理手段以及对FP8数据格式的解码适配等方面。这些不同之处意味着新架构或许在内存优化和计算效率上采取了针对性的设计策略。
此前,DeepSeek研究团队已接连发表两篇技术论文,其一阐述了名为“优化残差连接(mHC)”的全新训练方法,另一篇则介绍了受生物学启发的“AI记忆模块(Engram)”。这一系列动作让用户纷纷猜测,DeepSeek正在研发的新模型或许会融合这些前沿研究成果。让我们拭目以待。