11月21日:谷歌发布Gemini 3图像模型,腾讯视频生成模型开源

AI日报
2025年11月21日
27 阅读

11月21日,谷歌推出图像生成模型Nano Banana Pro,深度整合Gemini 3多模态能力,支持高分辨率输出与多语言文字渲染。腾讯混元发布视频生成模型HunyuanVideo 1.5,参数仅8.3B却能生成高清视频,降低使用门槛。小米发布具身大模型MiMo-Embodied并全面开源,蚂蚁集团领投RockFlow,推动金融AI应用落地。

谷歌Nano Banana Pro上线,深度结合Gemini 3

谷歌发布专业级图像生成模型Nano Banana Pro,深度集成Gemini 3多模态能力。模型支持2K/4K高分辨率输出,可融合多达14张参考图像并保持5个人物一致性,具备精准局部编辑、多语言文字渲染及电影级调光控色功能。结合Gemini 3的知识推理与搜索引擎,能生成高准确性信息图表。

腾讯混元发布全新视频生成模型:HunyuanVideo 1.5

腾讯混元开源视频生成模型HunyuanVideo 1.5,参数仅8.3B却可生成5-10秒高清视频。模型基于DiT架构,支持中英文文生视频与图生视频,具备强指令理解能力,可精准控制运镜、人物表情及物理运动。原生支持480p/720p输出,经超分可提升至1080p,并在14G显存消费级显卡即可流畅运行,大幅降低使用门槛。

小米具身大模型 MiMo-Embodied 发布并全面开源

小米发布业界首个打通自动驾驶与具身智能的跨域大模型MiMo-Embodied并全面开源。模型统一了具身智能三大核心任务与自动驾驶三大关键任务,实现室内交互与道路决策能力的双向知识迁移。在29项核心基准测试中表现卓越,全面超越现有开源及专用模型。

蚂蚁集团领投,RockFlow完成数千万美元新一轮融资

新加坡AI金融科技公司RockFlow完成数千万美元融资,由蚂蚁集团领投。公司推出全球首款金融交易AI Agent“Bobby”,能通过自然语言理解用户投资意图,自主完成从数据分析到实时交易的全流程。本轮融资将加速AI技术在金融服务领域的创新应用,推动复杂金融服务向普惠化、个性化发展。

AI技术在图像、视频、具身智能和金融领域持续突破,开源与商业化并行推进。

AI图像生成 视频生成模型 具身智能 金融AI 开源AI

相关新闻推荐

查看更多