根据“The Information”的报道,两位直接知情人士透露,深度求索(DeepSeek)预计将在未来几周内(2月中旬农历新年前后)推出代号为V4的新一代旗舰级人工智能模型,该模型主打强劲的代码生成能力。
据了解,DeepSeekV4在超长代码提示词的处理和解析方面取得了关键进展,能够支持百万级tokens的上下文窗口。
能够一次性处理完整的中型项目代码库、技术文档与需求说明,准确把握跨文件的依赖关系,复杂软件项目开发中上下文衔接不畅的难题,这对于大型系统开发、遗留代码重构以及复杂技术文档理解而言,具有突破性的重要价值。
V4也攻克了AI训练过程里的一个普遍难题——数据模式的理解能力在整个训练阶段都保持稳定不衰减,这和传统模型训练次数越多性能反而越下降的状况构成了鲜明的反差。
这项突破让模型得以更高效地从海量数据里学习,跳出单纯记忆数据的限制,具备更深入的抽象理解能力。
DeepSeek的员工通过公司内部基准进行的初步测试表明,该模型在代码生成方面的表现比Anthropic、Claude以及生成式预训练变换器系列(OpenAI GPT)等当前主流模型更为出色。
行业内也有消息指出,V4或许会运用全新的mHC架构,该架构拥有更出色的并行计算效率以及对国产芯片的适配能力,这一变化有望帮助降低部署成本、提升推理速度,从而为大规模商业化应用筑牢根基。
值得一提的是,本月4日,DeepSeek在arXiv平台更新了R1论文,其页数从原先的22页增加至86页,新补充了完整训练流程的拆解内容以及20多个评测基准的详细数据,这被看作是为V4的发布完成了技术层面的准备工作。