AI前沿周刊 | 25年第44周 视频生成模型与AI工具迎来新突破
本周AI行业迎来多项重要进展,视频生成模型、AI工具及企业级AI平台纷纷发布。模型层方面,美团开源LongCat-Video视频生成模型,支持长视频生成;月之暗面推出全新注意力架构Kimi Linear,提升Agent LLM性能。应用层中,ChatExcel升级ChatDB模块,支持对话式数据库处理;Google Labs推出AI营销工具Pomelli,助力中小企业品牌推广。行业动态方面,OpenAI完成股改,估值达1300亿美元;英国AI视频生成独角兽Synthesia完成2亿美元融资,估值达40亿美元。
模型层
豆包视频生成模型1.0 pro fast正式发布:提速3倍,价格直降72%。 2025年10月27日,火山引擎发布豆包视频生成模型1.0 Pro Fast,生成速度提升约3倍,价格直降72%。其生成720P的5秒视频仅需10秒,生成5秒1080P视频成本仅1.03元。
LongCat-Video 视频生成模型正式发布,探索世界模型的第一步。 2025年10月27日,美团开源了LongCat-Video的通用视频生成模型,参数量达13.6B。模型能实现文生视频、图生视频以及视频续写等功能,能在几分钟内生成720p、30fps的长视频,画面连贯、人物稳定、物理逻辑合理。
MiniMax Speech 2.6:最强 Voice Agent 来袭。 2025年10月30日,MiniMax发布最新语音模型Speech 2.6,全面升级Voice Agent场景。模型端到端延迟低于250毫秒,支持多种语言的网址、邮箱等非标准文本格式直接转换,提供Fluent LoRA功能,即使原始素材不完美,也能生成流利自然的语音。
Adobe推出最强图像生成模型Firefly Image 5!原生400万像素。 2025年10月30日,Adobe发布其最先进的图像生成与编辑模型Firefly Image 5,支持400万像素原生输出,具备文本指令编辑、分层图像编辑等功能,还新增视频和音频生成工具。Adobe还为Photoshop、Premiere Pro和Lightroom等应用推出全新生成式AI工具,并支持更多第三方模型。
月之暗面全新的注意力架构Kimi Linear横空出世。 2025年10月31日,月之暗面推出全新注意力架构Kimi Linear,有望成为下一代Agent LLM基石技术。架构核心是Kimi Delta Attention(KDA),通过精细化门控机制和硬件高效算法,实现性能与效率大幅提升。
智源悟界·Emu3.5:开启多模态世界大模型新纪元。 2025年10月31日,北京智源人工智能研究院发布“悟界·Emu3.5”,开启多模态世界大模型新纪元。Emu3.5是340亿参数的稠密自回归Transformer模型,将图像、文本和视频等多模态数据统一建模,实现从“下一Token预测”到“下一状态预测”的能力跃迁。
MiniMax Music 2.0:让音乐创作属于每一个人。 2025年10月31日,MiniMax发布最新音乐模型Music 2.0。模型在音乐理解与表达上实现飞跃,能精准捕捉人声情绪与器乐张力。支持多种唱法和情感风格,可精准控制人声音色,实现一声千变。在旋律创作上,可生成结构完整、抓耳的歌曲,能独立控制多种乐器,编曲层次丰富。音质全面升级,带来沉浸式听觉体验。
应用层
Skywork AI 的网页复刻(Web Clone)功能正式上线。 2025年10月27日,昆仑万维集团旗下的Skywork AI推出网页复刻功能,用户仅需提供网页链接、上传文件或输入文字描述,AI便能在数分钟内生成功能完备、结构清晰、风格相近的网页原型。通过深度算法解析网页逻辑与层级,实现结构级复构,而非简单复制外观。
ChatDB直接对话数据库!ChatExcel全新升级。 2025年10月28日,ChatExcel推出全新升级版ChatDB,用户无需SQL基础和复杂BI工具,仅通过对话即可连接数据库,快速处理百万数据并生成可视化报告。登录chatexcel.com,进入工作台即可使用ChatDB模块,连接数据库后,可一键提取、分析数据,并生成数据看板。
Google Labs推出一款AI营销工具:Pomelli。 2025年10月28日,Google Labs推出AI营销工具Pomelli,帮助中小型企业快速创建符合品牌气质的社交媒体活动。用户只需提供公司网站,Pomelli会自动提取品牌信息,建立“商业DNA”,并生成活动创意和视觉素材。用户可编辑调整后直接使用。
行业动态
OpenAI股改完成,非营利主体更名。 2025年10月29日,OpenAI完成资本结构重组,上市道路铺平。非营利主体更名为OpenAI Foundation,掌控营利实体26%股份,目前估值约1300亿美元。员工和投资者持有47%股份,微软持有32.5%股份。OpenAI还同意购买2500万美元微软Azure云服务,微软股价一度上涨3.5%。
英国AI视频生成独角兽Synthesia完成2亿美元融资。 2025年10月30日,英国AI视频生成独角兽Synthesia完成2亿美元(约14亿元人民币)融资,估值达40亿美元(约284亿元人民币),由谷歌风投领投,英伟达可能参与。Synthesia成立于2017年,专注于为企业生成虚拟形象视频,用于营销、培训等,已有6万家企业使用其平台,覆盖约70%的全球财富100强企业。
Mistral AI 推出企业级 AI 应用开发平台AI Studio。 2025年10月28日,法国 AI 初创公司 Mistral AI 推出企业级 AI 应用开发平台Mistral AI Studio,帮助企业将 AI 从原型开发过渡到可靠、可扩展的生产系统。平台具备深度可观察性、Agent 运行时和 AI 注册表三大核心功能,支持混合、本地和 VPC 部署,满足企业对 AI 应用的安全、合规和隐私要求。
xAI推出开源知识库Grokipedia,收录超88.5万篇文章。 2025年10月28日,埃隆·马斯克旗下的xAI团队推出Grokipedia,AI驱动的百科全书正式上线测试版。平台收录超88.5万篇文章,主打“无偏见”特性,通过Grok AI模型自动审核内容真实性,部分条目源自维基百科但标注为“改编内容”。
Flowith发布 Agent 操作系统 FlowithOS,超越 OpenAI Altas。 2025年10月29日,Flowith正式发布FlowithOS,为AI Agent打造的全新操作系统。解决AI普遍存在的“思考与执行脱节”问题,如跨网页、跨环境执行困难等。FlowithOS通过整合浏览器,为AI Agent提供思考与行动的环境。
GitHub 推出 Agent HQ,目标统一管理所有智能体。 2025年10月29日,GitHub推出Agent HQ平台,统一管理AI编程智能体并集成至工作流中。Agent HQ核心为Mission Control指挥中心,可协调多智能体任务分配与管理,支持跨平台操作。其Plan Mode功能可提升代码质量。开发者可通过AGENTS.md创建自定义智能体。
OpenAI发布找Bug智能体Aardvark:全自动读代码找漏洞写修复。 2025年10月31日,OpenAI 发布了由 GPT-5 驱动的Agent——Aardvark,能自动在大规模代码库中发现并修复安全漏洞。Aardvark 可识别 92% 的已知与人工注入漏洞,还能定位复杂条件下的问题。通过监控代码提交、分析、验证漏洞并生成修复建议,与 OpenAI Codex 深度集成,为漏洞生成修复补丁。
智谱清言全新推出「研究模式」。 2025年10月30日,智谱清言推出全新「研究模式」,帮助用户高效深入地开展研究。模式可围绕问题全网搜索并整合分析,自动生成结构化、可引用的研究报告,适用于学术研究、商业洞察、生活决策和热点追踪等多种场景。
美团LongCat团队发布WOWService:打造卓越智能交互体验。 2025年10月31日,美团LongCat团队发布WOWService大模型交互系统技术报告,针对本地生活服务领域大模型落地的“三重困境”,提出四大核心技术框架。系统融合多智能体协同、强化学习等技术,通过人机协同标注等方式降低成本,已在美团智能客服等数十个业务场景落地。