AI前沿周刊 | 25年第51周 多模态模型与AI工具创新
本周AI行业迎来多项重要进展,包括多模态模型的升级、AI工具的创新以及行业合作的深化。模型层方面,英伟达、小米、字节跳动等公司发布了多款性能提升的开源模型,涵盖语音、视频、图像生成等领域。应用层中,商汤、蚂蚁集团、即梦等公司推出了AI工具的更新,提升用户体验与效率。行业动态方面,爱诗科技与阿里云达成深度合作,Lovable完成新一轮融资,显示AI编程工具赛道的热度持续升温。
模型层
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1。 2025年12月15日,商汤科技发布Seko 2.0多剧集生成智能体,专为短剧创作者设计,支持角色一致性与精准对口型功能,大幅缩短制作周期。
Google Gemini TTS升级:支持24种语言,语音更拟真。 2025年12月15日,谷歌发布升级版Gemini 2.5 Flash和Pro文本转语音模型,提升表达能力、语速控制和多语言场景表现。
LiblibAI 上线「Wan 2.6」视频模型,中国版 SORA2 来了! 2025年12月16日,LiblibAI平台全球首发通义万相Wan 2.6视频生成模型,支持视频参考生成、声画同步和多镜头智能调度。
英伟达发布 Nemotron 3 开源 AI 模型系列,吞吐量达上一代 4 倍。 2025年12月17日,英伟达发布Nemotron 3开源AI模型系列,包含Nano、Super和Ultra三种规格,采用混合专家架构,吞吐量提升显著。
小米正式发布并开源新模型 MiMo-V2-Flash。 2025年12月17日,小米发布开源大模型MiMo-V2-Flash,采用MoE架构,总参数3090亿,编程能力突出。
OpenAI 最强 AI 生图模型GPT Image 1.5登场。 2025年12月17日,OpenAI发布全新旗舰图像生成模型GPT Image 1.5,提升提示词遵循、细节保留和文本渲染能力。
Google 发布了高速、低成本模型 Gemini 3 Flash。 2025年12月18日,谷歌发布Gemini 3 Flash,性能超越前代,响应速度提升3倍,成本显著降低。
美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现。 2025年12月18日,美团发布并开源虚拟人视频生成模型LongCat-Video-Avatar,提升动作拟真度、长视频稳定性和身份一致性。
Meta 发布 SAM Audio,多模态音频分离新突破。 2025年12月18日,Meta发布首个统一多模态音频分离模型SAM Audio,支持文本、视觉或时间段提示提取目标声音。
苹果开源 SHARP 模型,1 秒内 AI 让照片变 3D“活”起来。 2025年12月19日,苹果开源SHARP模型,能在一秒内将2D照片转换为逼真的3D场景,处理速度提升三个数量级。
应用层
蚂蚁旗下 AI 健康助手 AQ 启用中文名“蚂蚁阿福”。 2025年12月15日,蚂蚁集团旗下的AI健康助手AQ更新版本并启用中文名“蚂蚁阿福”,上线“健康小目标”功能,提供健康咨询、档案管理及云陪诊服务。
商汤小浣熊3.0来了,AI办公智能体一键生成高质量PPT。 2025年12月16日,商汤科技发布AI办公智能体“小浣熊3.0”,支持一键生成高质量PPT,具备长链条思考能力,深度理解复杂任务。
即梦网页版全面升级,打造一站式AI片场。 2025年12月17日,即梦AI网页版全面升级,上线基于Seedance 1.5 Pro的“视频3.5 Pro”模型,支持音视频联合生成及方言口型匹配。
腾讯混元世界模型1.5发布,国内首个开放实时体验。 2025年12月17日,腾讯发布混元世界模型1.5(WorldPlay),支持实时交互体验,用户可通过文字或图片生成专属3D互动世界。
扣子编程,开启免费公开测试。 2025年12月19日,扣子开发平台升级为“扣子编程”并开启免费公开测试,推出全新的Vibe Coding开发范式,用户可通过自然语言描述生成智能体和跨端应用。
行业动态
通义百聆语音双子星,同步开源! 2025年12月16日,阿里云通义百聆开源语音双子星模型Fun-CosyVoice3与Fun-ASR,提升音色克隆、语言识别及流式识别性能。
估值达465亿!明星AI编程独角兽Lovable再拿新融资。 2025年12月18日,瑞典AI编程初创公司Lovable完成新一轮融资,估值达66亿美元,成为欧洲最具价值初创公司之一。
爱诗科技携手阿里云达成全栈AI合作 AI视频全球化再启航。 2025年12月18日,爱诗科技与阿里云签署全面合作协议,双方将在AI视频生成领域建立深度协同,助力PixVerse模型的全球化部署。