AI前沿周刊 | 25年第50周智谱开源多模态模型与OpenAI迪士尼合作 - AI新闻详情

本周AI行业迎来多项重要进展。模型层方面，智谱AI开源了GLM-4.6V多模态大模型、GLM-ASR语音识别模型、GLM-TTS语音合成系统以及四项视频生成核心技术，展现了强大的多模态能力。美团发布LongCat-Image图像生成模型，性能逼近更大模型。腾讯推出混元2.0大模型，推理能力与效率业界领先。应用层方面，蚂蚁集团推出灵光网页版AI助手，支持全模态任务。Adobe与ChatGPT合作推出全新图像与PDF编辑功能，进一步提升用户体验。行业动态方面，AI法律科技公司Harvey完成F轮融资，估值达80亿美元。生成式AI媒体平台Fal获1.4亿美元注资，估值达45亿美元。OpenAI与迪士尼达成战略合作，迪士尼投资10亿美元并授权IP用于视频生成。

模型层

智谱正式上线并开源 GLM-4.6V 系列多模态大模型。 2025年12月08日，智谱AI正式上线并开源GLM-4.6V系列多模态大模型，包括106B和9B两个版本。模型原生支持基于视觉输入自主调用工具，可处理图文混排、识图购物等复杂任务。其128K长上下文窗口能理解长达150页的文档或1小时视频内容，在代码前端复刻等方面能力提升。

美团发布 LongCat-Image 图像生成模型。 2025年12月08日，美团发布并开源LongCat-Image图像生成模型，以6B参数在文生图和图像编辑能力上逼近更大模型。技术亮点包括：采用同源架构与渐进学习，在图像编辑可控性上达到开源SOTA；通过课程学习与字符级编码，显著提升中文文字生成的覆盖度与精准度；结合数据筛选与对抗训练，增强图像真实感。

混元2.0上线：推理能力与效率业界领先。 2025年12月08日，腾讯发布混元大模型最新版混元2.0，包含Think与Instruct两个版本。模型采用混合专家架构，总参数406B，支持256K上下文窗口。其在数学、科学、代码等复杂推理任务上表现优异，综合能力位居国内第一梯队。通过优化训练策略，模型在保持高准确率的同时显著降低思维链长度，推理效率领先。

AutoGLM开源：每台手机，都可以成为AI手机。 2025年12月09日，智谱AI宣布开源AutoGLM项目，让AI真正学会”使用手机”。项目经过32个月研发，构建了完整的Phone Use能力框架，使AI能通过视觉理解手机界面并完成点击、滑动等操作，实现从外卖下单到批量处理通知等自动化任务。为保障隐私安全，系统主要在云端虚拟手机环境中运行。

GLM-ASR开源，智谱AI输入法发布。 2025年12月10日，智谱AI发布并开源GLM-ASR系列语音识别模型，同时推出桌面端“智谱AI输入法”。系列包含云端领先模型GLM-ASR-2512和仅1.5B参数的开源SOTA端侧模型GLM-ASR-Nano-2512，后者在保证高精度的同时实现了更强的隐私保护与低延迟。

Mistral AI开源新一代编程模型：Devstral 2。 2025年12月10日，Mistral开源代码大模型Devstral 2系列，包含123B和24B两个版本，均支持256K上下文。模型在SWE-bench Verified上分别取得72.2和68.0的高分，性能达开源头部水平，同时模型体积显著小于同类竞品。配套推出的Vibe CLI工具可将模型能力集成至终端，支持扫描项目结构、调用命令、自动生成代码变更等操作。

智谱开源 GLM-TTS ：基于多奖励强化学习的可控发音语音合成。 2025年12月11日，智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式，支持仅3秒音色复刻与多方言克隆。字符错误率（CER）在强化学习优化后达0.89%，在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制（Phoneme-in）以及自研2D-Vocos声码器，显著提升了情感表达与发音准确性。

面壁智能 VoxCPM 1.5 开源，语音生成能力再升级。 2025年12月11日，VoxCPM 1.5版本正式开源上线。将AudioVAE采样率从16kHz提升至44.1kHz，显著提升了音色克隆的细节丰富度。生成效率实现翻倍，仅需6.25个token即可生成1秒音频。同时，新增LoRA和全量微调脚本以支持深度定制，优化了模型稳定性，减少音频伪影。

阿里发布 Qwen3-Omni-Flash 全模态大模型。 2025年12月11日，阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash。模型支持文本、图像、音视频的无缝输入与实时流式输出，显著提升了多轮对话的稳定性与语音生成的自然度。其系统提示控制能力实现飞跃，用户可精细设定如“甜妹”、“御姐”等特定人设风格。

GPT-5.2 正式发布！让打工人每周少干 10 小时。 2025年12月12日，OpenAI正式发布GPT-5.2模型，推出Instant、Thinking、Pro三个版本，分别针对常规任务、复杂推理和高精度需求。模型在多项基准测试中表现突出，在GDPval知识工作任务评估中首次达到或超越人类专家水平，软件工程能力（SWE-Bench Pro）创下55.6%的新纪录。其幻觉率降低约30%，长文本处理准确率接近完美。

智谱多模态开源周收官：四项视频生成核心技术开源。 2025年12月12日，智谱AI在多模态开源周收官之际，宣布开源四项视频生成核心技术：SCAIL影视级角色动画框架实现复杂姿态控制；RealVideo实时流式视频生成系统将首响延迟压缩至2-3秒；Kaleido多主体生成框架在开源模型中达到SOTA水平；SSVAE频谱结构化变分自编码器将模型收敛速度提升3倍。

应用层

蚂蚁集团通用 AI 助手灵光上线网页版。 2025年12月09日，蚂蚁集团正式推出全模态通用AI助手灵光网页版，用户可通过浏览器直接访问。网页版延续了“30秒用自然语言生成小应用”的核心优势，实现了与移动端的数据与创作同步。用户可在电脑上描述需求，快速生成、编辑并管理对话和闪应用，并在手机端继续使用和分享。

Adobe 与 ChatGPT 联手推出全新图像与 PDF 编辑功能。 2025年12月11日，OpenAI宣布ChatGPT正式接入Adobe系列专业软件，包括Photoshop、Acrobat和Adobe Express。用户现可在ChatGPT内直接调用这些工具，通过自然语言指令完成图像编辑、PDF处理等专业任务。整合后，ChatGPT会根据用户指令动态生成相应的操作界面，例如在调整图像亮度时自动呈现曝光、阴影等专业调节选项。

谷歌重磅开源！深度研究Agent拿下SOTA。 2025年12月12日，谷歌开源深度研究AgentGemini Deep Research，在DeepSearchQA基准测试中达到46.4%的SOTA水平，性能与GPT-5 Pro相当，而成本仅为后者的十分之一。该Agent基于Gemini 3 Pro模型，具备多步搜索和复杂信息整合能力，可自动生成深度研究报告。

行业动态

AI法律科技公司Harvey又获新融资（F轮），估值560亿！ 2025年12月08日，美国AI法律科技公司Harvey宣布完成1.6亿美元F轮融资，估值达80亿美元。公司由前谷歌DeepMind研究员和顶级律所律师于2022年创立，专注于“AI+法律”领域，法律AI平台包含AI助理、文档库等功能，已与美国百强律所中的50家合作。Harvey已获7轮融资，总融资额超9.6亿美元，OpenAI创业基金、谷歌风投等多次参与投资。

生成式AI媒体平台Fal再获1.4亿美元注资。 2025年12月10日，生成式AI媒体平台Fal获得由红杉资本领投的1.4亿美元新一轮融资，英伟达风投Nventures等机构跟投，公司估值达45亿美元，较数月前增长两倍。公司为开发者提供图像、视频和音频AI模型托管服务，客户包括Adobe、Shopify等企业。

迪士尼官宣 10 亿美元投资 OpenAI，允许 Sora 生成米老鼠等角色视频。 2025年12月12日，迪士尼公司与OpenAI达成为期三年的战略合作协议，将向OpenAI投资10亿美元并获得股权。根据协议，OpenAI的Sora视频生成平台将获得迪士尼旗下超过200个角色的IP授权，包括米老鼠、漫威超级英雄、星球大战等经典形象。用户未来可通过Sora生成迪士尼角色短视频，部分精选内容还将在Disney+平台播出。

多模态模型 AI助手战略投资

AI前沿周刊 | 25年第50周智谱开源多模态模型与OpenAI迪士尼合作

模型层

应用层

行业动态

相关新闻推荐

AI前沿周刊 | 26年第4周百度发布2.4万亿参数文心大模型5.0

AI前沿周刊 | 26年第3周 OpenAI签下近700亿AI芯片巨单

AI前沿周刊 | 26年第2周 MiniMax港股上市创纪录

AI前沿周刊 | 26年第1周 Meta收购AI应用Manus

模型层

应用层

行业动态

相关新闻推荐

AI前沿周刊 | 26年第4周 百度发布2.4万亿参数文心大模型5.0

AI前沿周刊 | 26年第3周 OpenAI签下近700亿AI芯片巨单

AI前沿周刊 | 26年第2周 MiniMax港股上市创纪录

AI前沿周刊 | 26年第1周 Meta收购AI应用Manus

AI前沿周刊 | 26年第4周百度发布2.4万亿参数文心大模型5.0