AI前沿周刊 | 25年第48周 Meta推出WorldGen系统,AI模型开源潮涌动
本周AI行业迎来多项重要进展,模型层方面,Meta推出WorldGen系统,仅需一条文本提示即可生成可交互的三维世界;AI2推出开源大型语言模型Olmo 3系列,涵盖多种任务能力;Anthropic发布Claude Opus 4.5,编程能力实现重大突破。应用层方面,阿里千问启用全新域名,提供更多Qwen3系列模型;OpenAI推出购物研究工具,提升消费决策效率;微软发布开源小型语言模型Fara-7B,专为电脑操作设计。行业动态方面,无问芯穹完成近5亿元A+轮融资,加速智能体普惠应用。
模型层
Meta 推出 WorldGen:一句话即可生成可交互 3D 世界。 2025年11月24日,Meta 推出WorldGen系统,仅需一条文本提示词即可生成可交互、可导航的三维世界。系统融合程序化逻辑推理、扩散模型等技术,输出几何严谨、视觉丰富的三维场景,适用于游戏、模拟仿真等。可生成 50 米 ×50 米全纹理场景,风格与结构高度一致。
AI2推出的开源大型语言模型系列:Olmo 3。 2025年11月24日,Allen Institute for Artificial Intelligence (AI2) 推出的开源大型语言模型Olmo 3系列,包括 Olmo 3-Base(7B 和 32B 参数)、Olmo 3-Think、Olmo 3-Instruct 和 Olmo 3-RL Zero 等版本,分别擅长编程、阅读理解、数学解题、复杂推理、多轮对话和强化学习等任务。
Anthropic发布新一代大模型Claude Opus 4.5。 2025年11月25日,Anthropic发布新一代大模型Claude Opus 4.5,在编程能力上实现重大突破,成为首个在SWE-Bench Verified真实软件工程测试中得分超过80%的模型,并在八种编程语言的七种中排名第一。核心升级包括对模糊需求的精准理解、复杂Bug自主定位能力,以及创新的”effort”参数控制系统,可在保证性能的同时大幅降低token消耗。
混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA。 2025年11月25日,腾讯混元开源轻量级OCR模型HunyuanOCR,参数仅1B却在多项核心能力上达到SOTA水平。模型基于混元原生多模态架构,采用端到端设计,在复杂文档解析基准OmniDocBench中获得94.1分,超越Gemini 3 Pro等主流模型。
挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场。 2025年11月25日,AMD携手IBM和AI初创公司Zyphra,历时1年多,成功使用AMD硬件训练出首个大型混合专家(MoE)基础模型ZAYA1。模型完全基于AMD硬件生态系统构建,训练过程在IBM云上进行,使用AMD Instinct MI300X GPU等技术。训练集群由128个节点组成,总计1024块GPU,性能超750 PFLOPs。
微软推出全新的开源小型语言模型 Fara-7B。 2025年11月25日,微软发布首款专为电脑操作设计的开源智能体小模型Fara-7B,由70亿参数构成,支持Win11端侧运行,性能领先同级。模型通过视觉解析网页截图,执行点击、输入等操作,无需依赖额外可访问性树或多个大模型协作。微软构建全新合成数据生成流程模拟网页任务,Fara-7B基于Qwen2.5-VL-7B底座,支持128k上下文。
黑森林重磅开源FLUX.2,图像生成模型的新里程碑。 2025年11月26日,Black Forest Labs发布开源图像生成与编辑模型FLUX.2,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源模型)、FLUX.2 [flex](可调节参数)、FLUX.2 [dev](开源32B权重模型)和FLUX.2 [klein](即将推出的轻量化模型)。
LiblibAI 上线「基础算法F.2」!支持多图参考和图像编辑! 2025年11月26日,国内AI创作平台LiblibAI(哩布哩布)正式上线新一代图像生成基础算法F.2。模型在文生图、多图参考及图像编辑三大核心功能上实现全面升级,显著提升了人物与风格的一致性、复杂提示词遵循能力及精细文本渲染效果。
阿里开源高效图像生成模型Z-Image,参数规模6B。 2025年11月27日,阿里开源高效图像生成模型Z-Image,参数规模为6B。模型采用单流DiT架构,通过统一处理文本与视觉语义token提升参数效率。发布三个版本:Z-Image-Turbo为轻量蒸馏版,支持8步快速生成,擅长写实生成与双语文字渲染;Z-Image-Base为基础模型,供社区微调定制;Z-Image-Edit专攻图像编辑,支持基于自然语言指令的创意编辑。
字节跳动发布视觉空间重建模型:Depth Anything 3。 2025年11月27日,字节跳动Seed团队开源视觉空间重建模型Depth Anything 3,突破性采用单一Transformer架构实现任意视角空间感知。模型通过“深度-射线”统一表征法,将相机姿态估计、几何重建等任务集成于简洁框架,在相机姿态精度和几何重建任务上分别较主流模型VGGT提升35.7%和23.6%。
DeepSeek强势回归,开源IMO金牌级数学模型DeepSeek-Math-V2。 2025年11月28日,DeepSeek开源新一代数学模型DeepSeek-Math-V2,实现IMO金牌级推理能力。模型突破性引入自我验证机制,通过“生成器-验证器-元验证”三重架构,使AI具备检查并修正自身推理过程的能力。在IMO 2025测试中取得83.3%高分,Putnam 2024测试接近满分。
混元3D Studio升级,可直出艺术家级3D资产。 2025年11月28日,腾讯混元3D Studio升级至1.1版本,集成全新美术级3D生成模型PolyGen 1.5,实现端到端原生四边形网格生成技术突破。模型首创自适应混合拓扑能力,可直接生成布线规整的专业级3D资产,在布线质量、结构完整度等关键指标上超越现有SOTA方法。
应用层
阿里千问启用全新域名,提供更多 Qwen3 系列模型。 2025年11月24日,阿里旗下 AI 助手“千问”正式启用全新域名 qianwen.com,进一步提升用户的访问便捷性。用户现可通过网页端直接体验千问,与 App 端实现无缝一致的使用体验。千问网页端面向专业用户开放了更多 Qwen3 系列模型体验选择。
OpenAI 为ChatGPT推出免费AI购物研究工具。 2025年11月25日,OpenAI为ChatGPT推出全新“购物研究”功能,替代传统电商平台与内容社区的消费决策流程。功能基于GPT-5 mini模型优化,通过交互式提问理解用户偏好,结合记忆功能生成个性化购买指南,并直接提供商品链接与可视化对比界面。
腾讯混元3D创作引擎国际站,上线! 2025年11月26日,腾讯混元3D创作引擎正式推出国际站,其API同步在腾讯云国际站上线,面向全球开发者开放。引擎支持文生3D、图生3D、草图生3D及智能拓扑等核心功能,用户通过文字、图片或草图即可分钟级生成高质量3D模型。
TRAE SOLO 登陆中国版,免费使用! 2025年11月26日,AI编程平台TRAE中国版正式推出SOLO模式并免费开放。模式内置智能体SOLO Coder,支持先制定开发计划再执行的协作流程,能调度多智能体处理复杂任务。采用全新三栏布局,实现多任务并行开发,内置代码变更对比工具与上下文管理功能。
昆仑万维AI音乐平台Mureka正式发布V7.6与O2双模型。 2025年11月28日,昆仑万维旗下AI音乐平台Mureka正式发布V7.6与O2双模型,推动AI音乐创作进入“专业品质×实时体验”新阶段。新模型基于MusiCoT细粒度音乐建模体系,在编曲结构、语义映射及声场音质方面实现显著提升,支持10种语言生成及自定义歌手功能。
行业动态
清华AI黑马斩获新融资,无问芯穹已完成近5亿元A+轮融资。 2025年11月27日,清华系AI基础设施企业无问芯穹完成近5亿元A+轮融资,成立两年半累计融资近15亿元。本轮融资将用于强化软硬协同技术优势,加速智能体在数字与物理世界的规模化普惠应用。