12月2日：视频生成模型集体突破，AI创作能力再升级

12月2日，AI视频生成领域迎来多款新模型发布，涵盖内容编辑、风格重绘、音画同步等多维度能力。LiblibAI推出可灵O1，Runway发布Gen-4.5，PixVerse V5.5实现导演级音画同步，英伟达则推出自动驾驶推理模型Alpamayo-R1，推动AI在多个应用场景中实现技术跃迁。

LiblibAI 上线「可灵O1」全能视频模型，速来体验

LiblibAI全球首发「可灵O1」统一多模态视频模型，是首个将视频内容增删、风格重绘、镜头延展等多项任务融于一体的大一统模型。模型支持最多7张参考图像保持内容一致性，可通过自然语言指令智能编辑视频，具备视频参考生成能力。

Runway发布的最新视频生成AI模型Gen-4.5，代号”David”

Runway正式发布Gen-4.5视频生成模型，该模型以”Whisper Thunder (aka) David”的匿名身份登上Artificial Analysis榜单首位。Gen-4.5在运动质量、提示词遵循度和视觉逼真度方面树立新标准，ELO评分达1247分，超越Veo 3/3.1、Kling 2.5和Sora 2 Pro等主流模型。具备精确的物理模拟能力、复杂的场景构建和电影级画面质感，支持多种控制模式。

英伟达拿出推理版VLA：Alpamayo-R1让自动驾驶AI更会动脑子

英伟达发布推理版视觉-语言-行动模型Alpamayo-R1，为自动驾驶系统赋予因果推理能力。模型突破传统端到端系统在长尾场景中的局限，通过”因果链”数据集让车辆理解”为何这样驾驶”而非简单执行指令。三大创新包括结构化因果标注体系、扩散式轨迹解码器和多阶段训练策略。

PixVerse V5.5 来了！「导演级」音画同步一键生成

PixVerse发布PixVerse V5.5视频生成模型，实现国内首个分镜与音频同步生成技术。模型具备”导演级”智能，可一键生成5秒、8秒或10秒的多镜头叙事单元，自动完成远景、中景、近景的自然切换。创新之处在于同步生成人声、环境声和情绪配音，使角色口型、动作与音频完美契合。

视频生成技术在内容创作和工业应用中持续深化，AI正从单一功能向多模态、强逻辑方向演进。

视频生成多模态模型自动驾驶音画同步 AI创作

LiblibAI 上线「可灵O1」全能视频模型，速来体验

Runway发布的最新视频生成AI模型Gen-4.5，代号”David”

英伟达拿出推理版VLA：Alpamayo-R1让自动驾驶AI更会动脑子

PixVerse V5.5 来了！「导演级」音画同步一键生成

相关新闻推荐

12月8日：GLM-4.6V与混元2.0齐发，多模态与推理能力再升级

12月5日：可灵数字人升级，谷歌Gemini 3公测，Pollo AI获千万融资

12月4日：国产图像模型升级，AI搜索与音画生成同步发力

12月3日：Mistral 3回归开源，亚马逊云发布Nova 2系列