12月2日:视频生成模型集体突破,AI创作能力再升级
12月2日,AI视频生成领域迎来多款新模型发布,涵盖内容编辑、风格重绘、音画同步等多维度能力。LiblibAI推出可灵O1,Runway发布Gen-4.5,PixVerse V5.5实现导演级音画同步,英伟达则推出自动驾驶推理模型Alpamayo-R1,推动AI在多个应用场景中实现技术跃迁。
LiblibAI 上线「可灵O1」全能视频模型,速来体验
LiblibAI全球首发「可灵O1」统一多模态视频模型,是首个将视频内容增删、风格重绘、镜头延展等多项任务融于一体的大一统模型。模型支持最多7张参考图像保持内容一致性,可通过自然语言指令智能编辑视频,具备视频参考生成能力。
Runway发布的最新视频生成AI模型Gen-4.5,代号”David”
Runway正式发布Gen-4.5视频生成模型,该模型以”Whisper Thunder (aka) David”的匿名身份登上Artificial Analysis榜单首位。Gen-4.5在运动质量、提示词遵循度和视觉逼真度方面树立新标准,ELO评分达1247分,超越Veo 3/3.1、Kling 2.5和Sora 2 Pro等主流模型。具备精确的物理模拟能力、复杂的场景构建和电影级画面质感,支持多种控制模式。
英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子
英伟达发布推理版视觉-语言-行动模型Alpamayo-R1,为自动驾驶系统赋予因果推理能力。模型突破传统端到端系统在长尾场景中的局限,通过”因果链”数据集让车辆理解”为何这样驾驶”而非简单执行指令。三大创新包括结构化因果标注体系、扩散式轨迹解码器和多阶段训练策略。
PixVerse V5.5 来了!「导演级」音画同步一键生成
PixVerse发布PixVerse V5.5视频生成模型,实现国内首个分镜与音频同步生成技术。模型具备”导演级”智能,可一键生成5秒、8秒或10秒的多镜头叙事单元,自动完成远景、中景、近景的自然切换。创新之处在于同步生成人声、环境声和情绪配音,使角色口型、动作与音频完美契合。
视频生成技术在内容创作和工业应用中持续深化,AI正从单一功能向多模态、强逻辑方向演进。