11月21日：谷歌发布Gemini 3图像模型，腾讯视频生成模型开源

11月21日，谷歌推出图像生成模型Nano Banana Pro，深度整合Gemini 3多模态能力，支持高分辨率输出与多语言文字渲染。腾讯混元发布视频生成模型HunyuanVideo 1.5，参数仅8.3B却能生成高清视频，降低使用门槛。小米发布具身大模型MiMo-Embodied并全面开源，蚂蚁集团领投RockFlow，推动金融AI应用落地。

谷歌Nano Banana Pro上线，深度结合Gemini 3

谷歌发布专业级图像生成模型Nano Banana Pro，深度集成Gemini 3多模态能力。模型支持2K/4K高分辨率输出，可融合多达14张参考图像并保持5个人物一致性，具备精准局部编辑、多语言文字渲染及电影级调光控色功能。结合Gemini 3的知识推理与搜索引擎，能生成高准确性信息图表。

腾讯混元发布全新视频生成模型：HunyuanVideo 1.5

腾讯混元开源视频生成模型HunyuanVideo 1.5，参数仅8.3B却可生成5-10秒高清视频。模型基于DiT架构，支持中英文文生视频与图生视频，具备强指令理解能力，可精准控制运镜、人物表情及物理运动。原生支持480p/720p输出，经超分可提升至1080p，并在14G显存消费级显卡即可流畅运行，大幅降低使用门槛。

小米具身大模型 MiMo-Embodied 发布并全面开源

小米发布业界首个打通自动驾驶与具身智能的跨域大模型MiMo-Embodied并全面开源。模型统一了具身智能三大核心任务与自动驾驶三大关键任务，实现室内交互与道路决策能力的双向知识迁移。在29项核心基准测试中表现卓越，全面超越现有开源及专用模型。

蚂蚁集团领投，RockFlow完成数千万美元新一轮融资

新加坡AI金融科技公司RockFlow完成数千万美元融资，由蚂蚁集团领投。公司推出全球首款金融交易AI Agent“Bobby”，能通过自然语言理解用户投资意图，自主完成从数据分析到实时交易的全流程。本轮融资将加速AI技术在金融服务领域的创新应用，推动复杂金融服务向普惠化、个性化发展。

AI技术在图像、视频、具身智能和金融领域持续突破，开源与商业化并行推进。

AI图像生成视频生成模型具身智能金融AI 开源AI

谷歌Nano Banana Pro上线，深度结合Gemini 3

腾讯混元发布全新视频生成模型：HunyuanVideo 1.5

小米具身大模型 MiMo-Embodied 发布并全面开源

蚂蚁集团领投，RockFlow完成数千万美元新一轮融资

相关新闻推荐

12月8日：GLM-4.6V与混元2.0齐发，多模态与推理能力再升级

12月5日：可灵数字人升级，谷歌Gemini 3公测，Pollo AI获千万融资

12月4日：国产图像模型升级，AI搜索与音画生成同步发力

12月3日：Mistral 3回归开源，亚马逊云发布Nova 2系列