发帖
客户端
扫码下载

[AI] 美团LongCat团队发布开源视频生成模型,长视频生成能力达行业顶尖

[复制链接]
6 |0
未来视野 发表于 昨天 21:05 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
美团LongCat团队正式发布并开源了LongCat-Video视频生成模型,该模型在文生、图生视频基础任务上达到了开源最先进水平,并依托原生视频续写任务预训练,实现了分钟级长视频的连贯生成。这一模型在保障跨帧时序一致性与物理运动合理性的同时,展现了在长视频生成领域的显著优势。

据介绍,“世界模型”被视为通往下一代智能的核心引擎,它能够让AI真正理解、预测甚至重构真实世界。而视频生成模型,则有望成为构建这一世界模型的关键路径。LongCat-Video作为基于Diffusion Transformer架构的多功能统一视频生成基座,通过创新的“条件帧数量”方式实现了任务区分,无需额外模型适配即可原生支持文生视频、图生视频以及视频续写三大核心任务。

在文生视频方面,LongCat-Video能够生成720p、30fps的高清视频,精准解析文本中的物体、人物、场景、风格等细节指令,其语义理解与视觉呈现能力达到了开源最先进水平。在图生视频方面,该模型能够严格保留参考图像的主体属性、背景关系与整体风格,动态过程符合物理规律,支持多种类型输入,内容一致性与动态自然度表现优异。

尤为突出的是,LongCat-Video的视频续写能力,可基于多帧条件帧续接视频内容,为长视频生成提供原生技术支撑。依托视频续写任务预训练、Block-Causual Attention机制和GRPO后训练,该模型能够稳定输出5分钟级别的长视频,且质量无损,达到了行业顶尖水平。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表