AI前沿周刊 | 25年第41周 OpenAI发布多项AI工具,引领智能体开发新潮流
本周AI行业迎来多项重要进展,OpenAI在开发者大会上发布了包括AgentKit、Codex正式版和Sora 2 API在内的多项工具,进一步推动智能体开发领域的发展。同时,西湖大学推出了首个全自动AI科学家DeepScientist系统,展现了AI在科研领域的巨大潜力。此外,Opera Neon浏览器作为首款AI Agent浏览器正式发布,标志着AI在浏览器领域的创新应用。行业动态方面,镜识科技完成数千万元融资,推出全球首款双形态家庭机器人,进一步推动了AI在机器人领域的落地应用。
模型层
OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Sora 2 API。 2025年10月07日,OpenAI开发者大会发布多项重要产品:包括AgentKit智能体开发工具(含可视化构建器、连接器注册表和ChatKit)、Codex正式版(集成Slack并提升十倍日活)、ChatGPT内置应用及开源Apps SDK。同时推出实时音频gpt-realtime-mini、图像生成gpt-image-1-mini、视频生成Sora 2 API以及GPT-5 pro API。所有功能均纳入标准API计费体系。
蚂蚁百灵正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T。 2025年10月09日,百灵团队正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T。模型拥有万亿参数,基于Ling 2.0架构,每个token激活约500亿参数。Ling-1T在20T+ token的高质量、高推理浓度语料上完成预训练,支持最高128K上下文窗口,通过“中训练+后训练”的演进式思维链(Evo-CoT)极大提升模型高效推理能力,在多项复杂推理基准中取得SOTA表现。
首个全自动AI科学家诞生!西湖大学最新成果:DeepScientist系统。 2025年10月09日,西湖大学自然语言处理实验室发布DeepScientist系统,是首个具有完整科研能力的AI科学家。能在无人工干预下,主动识别研究局限、提出新构想、编写代码、执行实验、撰写论文。在AI文本检测任务中,DeepScientist两周完成人类三年的科研进展,取得7.9%的AUROC提升,超越人类SOTA方案。
Thinking Machines Lab推出首款产品「Tinker」。 2025年10月09日,Thinking Machines Lab推出首款产品「Tinker」,是一个专为语言模型微调而生的API。允许开发者通过简单的Python代码进行模型微调,无需担心底层架构的复杂性。Tinker支持从小到大的各类开放权重模型,包括大型专家混合架构,并集成了基于LoRA的微调方法。
谷歌新世界模型Dreamer 4纯靠「想象」训练。 2025年10月09日,谷歌DeepMind发布Dreamer 4,一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务。它是首个仅从离线数据集在《我的世界》中获得钻石的智能体。Dreamer 4利用shortcut forcing目标和高效Transformer架构,准确学习复杂交互,实现实时人机交互和高效想象训练。
火山引擎发布豆包大模型1.6-vision。 2025年10月11日,火山引擎发布豆包大模型1.6-vision。大模型具有多模态能力,可处理文本、图像、视频等多种数据。豆包大模型1.6-vision在多个领域有广泛的应用前景,如智能客服、内容创作、图像识别等。
谷歌加入CUA战场,发布Gemini 2.5 Computer Use模型。 2025年10月10日,谷歌DeepMind发布Gemini 2.5 Computer Use模型,可让AI直接控制浏览器,执行点击、滚动、输入等操作。模型基于Gemini 2.5,与OpenAI的CUA类似,通过视觉理解和推理能力帮助用户完成任务。在基准测试中,其性能达到SOTA水平,速度优于其他模型。
应用层
快手推出AI原生IDE工具:CodeFlicker,对标Cursor。 2025年10月09日,快手正在开发一款名为“CodeFlicker”的集成开发环境工具,支持AI问答、代码自动补全、基于Agent的AI编程等功能,可帮助程序员自动化完成开发任务,实现端到端开发。工具提供Jam模式和Duet模式等交互模式,能将复杂任务拆解为清晰可追踪的待办步骤,还通过MCP灵活集成不同数据源、工具和服务,拓宽应用场景边界。
滴滴悄悄上线了一个 AI 图寻产品「在哪儿问问」。 2025年10月09日,滴滴上线AI图寻产品「在哪儿问问」,目前仅支持微信小程序。该产品具有地点查找、相似地点推荐及相关产品推荐功能。用户上传照片,AI可识别大致位置并提供相应服务。
Sand.AI 团队推出的 AI 视频生成平台Gaga,国产的 Sora2。 2025年10月10日,国产AI视频生成产品Gaga上线。Gaga由Sand.ai团队开发,专注于对话场景的视频生成,用户上传一张照片和一段台词,3分钟内即可生成包含声音、表情、情绪和背景音的视频。与Sora2相比,Gaga专精于胸部以上的对话演绎,成本不到Sora2的1/20。
Figure AI 发布最新人形机器人——Figure 03。 2025年10月10日,Figure AI发布第三代人形机器人Figure 03,号称全球最强大。机器人配备全新传感系统和手部结构,搭载自研“视觉 – 语言 – 动作”AI系统Helix,能思考而非仅执行指令。以家庭场景优先,采用柔性材质、无线充电等,零部件制造成本降低90%,目标是帮用户做家务。
昆仑万维集团正式发布Opera Neon浏览器。 2025年10月10日,昆仑万维集团正式发布Opera Neon浏览器。Opera Neon是Opera浏览器家族的新成员,也是首款AI Agent浏览器,采用付费订阅制,专为大量使用AI的用户设计。具备“任务”功能,可创建独立工作空间,支持AI辅助操作;“卡片”功能可让用户自定义指令,提高效率;“Neon Do”功能可主动执行任务,如购物、预订等;“制作”功能则支持用户创作内容并分享。
行业动态
OpenAI 与流媒体音乐平台 Spotify 达成合作。 2025年10月09日,OpenAI与流媒体音乐平台Spotify达成合作,用户可在ChatGPT网页版或移动端中提到Spotify后登录账号,获取个性化音乐和播客推荐。ChatGPT会根据对话内容调用Spotify控件,推荐歌曲、艺人、专辑等,点击后自动打开Spotify应用。
Anthropic 发布 AI Agent 上下文工程指南。 2025年10月09日,Anthropic发布AI Agent上下文工程指南,强调上下文工程的重要性。上下文工程是提示词工程的自然演进,关注在LLM推理过程中策划和维护最优token集合。指南指出,LLM的注意力资源有限,上下文应被视为有限资源,需精心设计。
吴恩达官宣新课《Agentic AI》,手把手教你构建AI智能体。 2025年10月10日,吴恩达宣布推出新课程《Agentic AI》,教授构建AI智能体的技能。课程已在deeplearning.ai上线。学习者将掌握反思、工具使用、规划和多智能体协作等四种关键智能体设计模式。课程强调规范化评估和错误分析流程的重要性,帮助学员高效改进智能体工作流。
镜识科技获数千万元融资,做出全球首款双形态家庭机器人。 2025年10月10日,镜识科技完成数千万元A轮融资,由常春藤资本独家投资。公司成立于2024年,专注于具身智能技术的研发与应用。其研发的“黑豹2.0”四足机器人以10.9米/秒的速度打破波士顿动力Wildcat尘封十余年的纪录。