10月27日,美团官方对外宣布,其旗下LongCat团队已正式推出LongCat-Video视频生成模型。该模型采用Diffusion Transformer架构打造,能够支持文生视频、图生视频以及视频续写这三类核心任务,并且美团方面表示,该模型在开源模型领域已处于先进水平。
据介绍,LongCat-Video能够生成720p分辨率、30帧率的高清视频,它的显著优势是可以原生生成长达5分钟的连贯视频内容。该模型借助视频续写预训练、块稀疏注意力等技术机制,致力于解决长视频生成过程中常见的画面断裂、质量下滑等问题,从而维持视频的时序一致性和运动合理性。
在效率表现上,这款模型运用了二阶段生成机制、块稀疏注意力架构以及模型蒸馏等关键技术,根据官方披露的信息,其推理速度实现了10倍以上的提升。该模型的参数量达到136亿,在VBench等公开评测基准中,展现出了优异的文本语义对齐能力与运动序列连贯性。
作为一项旨在构建“世界模型”的技术探索,LongCat-Video未来或许能够应用于自动驾驶模拟、具身智能等对长时序建模有需求的场景。这一模型的发布,意味着美团在视频生成与物理世界模拟领域跨出了关键一步。