AI前沿周刊 | 25年第42周 多模态模型升级与AI芯片合作

AI周报
2025年10月19日
48 阅读

本周AI行业迎来多项重要进展,包括多模态模型社区的全新升级、开源项目的火爆、AI芯片合作的达成以及多个AI产品的发布与升级。LiblibAI 2.0正式上线,Karpathy的开源项目"nanochat"一夜爆火,OpenAI与博通达成AI芯片合作,微软推出自研图像生成模型MAI-Image-1,蚂蚁发布万亿思考模型Ring-1T并开源。此外,未来智能完成亿元级A轮融资,设序科技获Pre-B轮融资,爱诗科技完成B+轮融资。这些进展展示了AI技术的快速发展及其在多个领域的广泛应用。

模型层

多模态模型社区全新升级,LiblibAI 2.0正式上线。 2025年10月13日,LiblibAI 2.0正式上线,成为中国最大的多模态模型社区的全新升级版本。新版本从单纯的工具集合转变为创作者的AI专业工作室,具备极简生成器,可同时完成视频与图像生成,并兼容开源与闭源模型。

蚂蚁正式发布万亿思考模型Ring-1T,发布即开源。 2025年10月14日,百灵团队正式发布万亿思考模型Ring-1T,并宣布开源。模型基于Ling 2.0架构,具备1T总参数和50B激活参数,支持最高128K上下文窗口。通过大规模可验证奖励强化学习(RLVR)训练,Ring-1T在数学竞赛、代码生成、逻辑推理等高难度任务上表现优异,达到开源领先水平。

微软推出首款自研图像生成模型MAI-Image-1。 2025年10月14日,微软宣布推出首款完全自主研发的图像生成模型MAI-Image-1,模型在LMArena的文本到图像模型排行榜上首次进入前十。微软AI致力于为所有人创造AI,MAI-Image-1为创作者提供真正的价值,避免重复或泛泛的输出。专注于生成逼真的图像,如光影效果和风景,并在速度和质量上表现出色。

腾讯优图推出高性能通用文本嵌入模型Youtu-Embedding。 2025年10月14日,腾讯优图实验室开源了高性能通用文本嵌入模型Youtu-Embedding。模型面向企业级应用,可胜任文本检索、意图理解等六大任务,在中文文本嵌入评测基准CMTEB上以77.46分登顶。采用“LLM基础预训练→弱监督对齐→协同-判别式微调”的三阶段训练,结合创新微调框架与精细化数据工程,解决了多任务学习难题。

阿里千问最强视觉模型新开源。 2025年10月15日,阿里通义千问团队推出Qwen3-VL系列4B与8B版本,提供Instruct和Thinking版本。新版本资源门槛低,核心能力不减配,在多模态性能上表现优异,多个基准测试中超越谷歌Gemini 2.5 Flash Lite、OpenAI GPT-5 Nano等同级别顶尖模型,甚至媲美阿里此前旗舰模型Qwen2.5-VL-72B。

谷歌推出新款视频生成模型 Veo 3.1。 2025年10月16日,谷歌发布AI视频生成模型Veo 3.1,带来更丰富的音频、叙事控制及逼真的质感还原。Veo 3.1在Veo 3基础上,提升提示词遵循度,增强视听质量。其驱动的AI电影创作工具Flow更新,支持原生音频生成,用户可将静态图像转视频、整合多图像元素、延展视频时长等,实现更精细的视频编辑与颗粒化控制。

通义千问正式推出 Qwen Chat Memory 功能。 2025年10月16日,Qwen Chat Memory正式上线,赋予了Qwen“长记忆”能力。能理解上下文、保留重要信息并回忆过往对话,使交流更具延续性。让Qwen在对话中主动关联过往互动,更好地理解用户需求,为用户提供更个性化的服务。

火山引擎全新发布和升级了四款豆包大模型。 2025年10月16日,火山引擎全新发布和升级了四款豆包大模型,包括豆包大模型1.6升级版、豆包大模型1.6 lite、豆包语音合成模型2.0和豆包声音复刻模型2.0。豆包大模型1.6升级版原生支持四种思考长度,是国内首个原生支持“分档调节思考长度”的模型,可平衡效果、时延和成本。豆包大模型1.6 lite更轻量、推理速度更快、性价比更高。

Anthropic 发布了 Claude Haiku 4.5,速度翻倍价格大砍。 2025年10月16日,Anthropic发布了Claude Haiku 4.5模型。模型在保持高性能的同时,速度翻倍且价格大幅降低。在SWE-bench Verified测试集中,Haiku 4.5取得了73%的成绩,与Claude Sonnet 4和OpenAI的GPT-5处于同一水平线,在某些任务上甚至超过Sonnet 4。

李飞飞世界模型新成果RTFM 「Real-Time Frame Model」震撼问世。 2025年10月17日,斯坦福大学教授李飞飞的创业公司World Labs推出了实时生成式世界模型RTFM。模型可在单个H100 GPU上运行,输入2D图像后,能生成不同视角下的新2D图像,实现3D一致性和持久性。RTFM基于大规模视频数据训练,无需显式构建3D表示,而是通过端到端学习模拟3D几何、反射等特征。

美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地。 2025年10月17日,美团LongCat团队开源了语音编解码方案LongCat-Audio-Codec。专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征,解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互,满足车载语音助手、实时翻译等场景的需求。

应用层

Karpathy最新开源项目“nanochat”爆火,一夜近5k star。 2025年10月14日,前特斯拉AI总监Karpathy推出开源项目“nanochat”,仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时,星标数已破4.2k。用户只需一台GPU、约4小时和100美元成本,就能训练出一个能写诗、回答基础问题的“小型ChatGPT”。

谷歌 NotebookLM 视频概览支持 Nano Banana。 2025年10月15日,NotebookLM视频概览功能发布更新升级,新增了六种由 Nano Banana 提供配图支持的视觉风格:Watercolor、Papercraft、Anime、Whiteboard、Retro Print 和 Heritage。更新彻底告别了以往固定主体动态颜色的限制,效果提升明细。目前仅支持 Pro 用户。

讯飞星火升级的「深度研究」全新上线。 2025年10月16日,讯飞星火“深度研究”功能全新升级,实现底层思维链路、信息融合与内容呈现的全方面进化。功能通过多轮思考和搜索迭代,深度理解用户意图,提升内容质量;支持输出高质量图片,新增HTML网页导出与一键转PPT功能;结合外部搜索信源和本地文档,实现个性化思考。

阿里Qoder产品家族再增一员,Qoder CLI 将智能拓展到终端。 2025年10月16日,阿里推出全新AI编程工具Qoder CLI,专为命令行环境打造的AI Coding Agent。集成顶尖编程模型,设计轻量级Agent框架,具备强大代码生成与理解能力,同时降低内存消耗和命令响应时间,提升开发效率。Qoder CLI无需复杂初始化,安装即用,支持文件编辑、命令运行等功能,并可通过MCP扩展或自定义开发工具。

Manus 1.5 正式发布,速度提升近四倍。 2025年10月17日,Manus宣布推出Manus 1.5版本。在任务执行速度、可靠性和输出质量方面显著提升,任务平均完成时间缩短至不足4分钟,速度提升近四倍。Manus 1.5提供两种模型:Manus-1.5适用于高复杂度任务,Manus-1.5-Lite则针对成本效率优化。新版本具备全栈Web应用开发功能,用户可通过对话完成从开发到部署的全过程。

行业动态

工业AI智能体公司「设序科技」获数千万元Pre B轮融资。 2025年10月13日,工业AI智能体公司“设序科技”完成数千万元Pre-B轮融资,投资方为涌铧投资和广发信德。过去一年,公司已连续完成三轮融资,累计金额超亿元。设序科技成立于2020年,旗下产品“闪设”是一款工业智能生成式设计软件,可快速生成3D设计方案和2D工程图纸,已应用于汽车、3C、能源等领域,客户包括比亚迪、本田等。

未来智能完成亿元级A轮融资,蚂蚁集团领投。 2025年10月13日,中国AI硬件公司未来智能完成亿元级A轮融资,由蚂蚁集团领投,启明创投超额跟投。是其今年第三次融资,累计融资规模进一步扩大。本轮融资将用于丰富AI办公硬件产品矩阵、加速海外自主品牌viaim建设和市场推广,以及加大对AI Agent等前沿技术的投入。

OpenAI与博通双方达成AI芯片合作。 2025年10月14日,OpenAI与定制ASIC厂商博通宣布合作,共同开发10吉瓦的定制人工智能加速器。博通将从2026年下半年开始部署相关系统,并于2029年年底完成。受此消息影响,博通盘中股价涨超10%。

爱诗科技完成B+轮1亿元融资,ARR突破4000万美金。 2025年10月17日,AI视频企业爱诗科技宣布完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金等共同投资。爱诗科技旗下产品PixVerse与拍我AI服务于C端大众与专业创作者,用户规模已突破一亿,ARR超过4000万美元,MAU超过1600万。

模型开源 AI应用 行业融资

相关新闻推荐

查看更多