AI前沿周刊 | 25年第43周 深度解析AI模型与应用创新
本周AI行业迎来多项重要进展,包括模型层的技术突破、应用层的产品创新以及行业动态中的融资与合作。模型层方面,DeepSeek开源了3B MoE OCR模型,百度发布PaddleOCR-VL登顶HuggingFace榜首,腾讯开源混元世界模型1.1支持多视图及视频输入。应用层方面,Vidu Q2参考生视频全球上线,Anthropic推出Claude桌面版,CodeBuddy IDE 1.0正式发布。行业动态方面,Cherry Studio企业版发布,LiblibAI完成1.3亿美元融资,灵巧手公司星际光年完成Pre-A轮融资,蚂蚁集团加注灵心巧手。
模型层
DeepSeek 再开源:发布 3B MoE OCR 模型DeepSeek-OCR。 2025年10月20日,DeepSeek推出全新视觉文本压缩模型DeepSeek-OCR。模型参数仅3B,采用混合专家架构,视觉token数量减少20倍,压缩比达20倍,20个节点每天可处理3300万页数据。在Fox benchmark测试中,各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力,可在多轮对话中实现10倍压缩效率。
全球榜首!百度最新开源模型PaddleOCR-VL。 2025年10月20日,百度自研多模态文档解析模型PaddleOCR-VL发布仅16小时就登顶HuggingFace Trending全球第一。模型参数仅0.9B,轻量高效,能精准识别文本、手写汉字、表格等多种复杂元素,支持109种语言。
混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成。 2025年10月22日,腾讯发布并开源了混元世界模型1.1(HunyuanWorld-Mirror)。模型新增支持多视图及视频输入,可在单张显卡上部署,秒级生成3D世界。突破了1.0版本仅支持文本或单图输入的局限,首次实现了多模态先验注入和多任务统一输出的端到端3D重建,支持点云、深度图、相机参数等多种3D几何预测,性能大幅领先现有方法。
2B、32B!更适合开发者体质的Qwen3-VL来啦。 2025年10月22日,Qwen3-VL家族新增2B与32B两个密集模型尺寸,从轻量级到甜品级,覆盖视觉语言理解场景。两种版本可选:Instruct适合对话与工具调用,Thinking强化长链推理与复杂视觉理解。Qwen3-VL-32B在多个领域表现优于GPT-5 mini等,仅用32B参数匹敌235B模型。Qwen3-VL-2B小体量但表现惊人,可在极限端侧设备上运行。
应用层
宇树发布180cm仿生人形机器人!会跳芭蕾能打功夫。 2025年10月20日,宇树发布第四款人形机器人H2,高180cm,重70kg。相比前代H1,H2在运动流畅性和仿生特征上有显著提升。H2拥有31个关节,分布在双臂、双腿和躯干,能完成芭蕾舞、中国武术等高难度动作。还被赋予了类似人类的面部特征,外观和运动姿态更接近人类。
Vidu Q2 参考生视频全球上线,高一致性,速度更快,价格更优惠。 2025年10月21日,Vidu Q2参考生视频全球上线,本次升级聚焦于高一致性,速度更快,价格更优惠三大核心,满足专业及半专业创作者日益增长的高想象力内容创作需求。目前Vidu Q2参考生视频已在全球同步上线,用户可以在Vidu网页端,或各大应用商店搜索Vidu AI APP,体验最新功能。
Anthropic正式上线网页版Claude Code。 2025年10月21日,Anthropic发布Claude Code 网页版,用户无需部署即可在浏览器中使用其代码生成功能。核心功能包括连接 GitHub 仓库、自动写代码、并行处理多个任务、实时查看进度以及完成后自动创建 PR。
CodeBuddy IDE 1.0 正式版焕新发布!支持Web Fetch、自定义指令。 2025年10月21日,CodeBuddy IDE 1.0正式版发布,国际版全面支持 GPT-5-Codex,新增自定义指令、Web Fetch 实时获取网络信息等功能,MCP 市场正式开放,支持完整 DiffView 功能。
Cherry Studio 企业版击穿底价,让每家公司都用上专属AI。 2025年10月21日,Cherry Studio企业 Express 版正式发布,以 5000 元买断价、不限员工席位,为企业提供一站式 AI 落地解决方案。该版本内置顶级闭源与开源模型,无需申请 API Key,解决网络问题,简化计费流程,支持私有化和云应用部署。
智谱推出GLM Coding Plan企业版:以最强Agentic Coding赋能千行百业。 2025年10月21日,智谱发布 GLM Coding Plan 企业版,基于GLM-4.6模型,为企业提供全面智能编程解决方案。产品在国际 API 平台 OpenRouter 趋势榜中名列第一,融合多模态理解、联网搜索及智能编排能力,提供从代码生成到全链条开发协同的一站式服务。企业版具备高用量、低成本、高性能和高安全性,无缝适配 10 余款主流编程工具,支持灵活成员管理和使用数据分析。
美团发布面向复杂问题的大模型智能体评测基准——VitaBench。 2025年10月21日,美团 LongCat 团队发布VitaBench,是面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行三大生活场景为载体,构建了包含 66 个工具的交互式评测环境。VitaBench 从深度推理、工具使用与用户交互三大维度量化任务复杂性,通过真实用户模拟器和原子化评估准则实现细粒度评估。
OpenAI首款ChatGPT Atlas浏览器发布!免费下载使用。 2025年10月22日,OpenAI发布首款AI原生浏览器ChatGPT Atlas。浏览器基于谷歌开源的Chromium内核打造,整合了ChatGPT对话能力,每个标签页都能直接聊天。具备浏览器上下文助手能力,可直接在浏览页面提问;内置记忆功能,记录用户浏览关键内容;“Cursor Chat”功能可选中文本进行编辑润色;Agent模式能完成网页操作,如填写表单、预订等。
AipexBase,中国首个AI原生后端基础设施正式开源!。 2025年10月22日,北京跨赴科技(KuaFuAI)正式开源中国首个AI原生后端即服务(Backend-as-a-Service)平台AipexBase。让开发者“不写后端,也能拥有完整后端”,所有后端能力如数据存储、鉴权等均被自动封装,开发者可通过前端SDK或MCP协议一键调用。AipexBase原生兼容MCP,统一上下文与数据层,支持码上飞、Cursor等AI产品接入,深度适配中国开发生态,兼容飞书、钉钉、微信等生态接入。
Anthropic 公司推出Claude 桌面版。 2025年10月22日,Claude桌面版正式发布,支持Mac和Windows系统。版本有四项核心功能:全局快捷键(Mac双击Option唤醒)、分享工作(截图、窗口分享、拖拽文件)、语音输入(按Caps Lock说话)和连接工具(可调用代码编辑器、本地文件、数据库)。
Seed3D 1.0 发布,一张图生成高精度 3D 模型,纹理生成能力 SOTA。 2025年10月23日,字节跳动Seed团队推出3D生成大模型Seed3D 1.0,可从单张图像生成高精度3D模型,兼具物理模拟精确性与可扩展性。其基于Diffusion Transformer架构,通过大规模数据训练,具备高保真资产生成、物理引擎兼容性和可扩展场景组合能力,在几何与纹理生成方面表现优异。
百川发布最强循证增强大模型 M2 Plus,打造“医生版 ChatGPT”。 2025年10月23日,百川发布了循证增强医疗大模型Baichuan-M2 Plus,并升级应用百小应及开放API。模型首创六源循证推理范式,构建从原始研究到真实世界的完整知识体系,通过循证检索与推理,显著降低医疗幻觉率,其幻觉率较DeepSeek低约3倍,优于美国医疗产品OpenEvidence,可信度比肩资深临床医生水准。
支付宝推出多模态AI应用“灵光”。 2025年10月24日,支付宝推出多模态AI应用“灵光”,已上线腾讯应用宝、vivo应用商店等平台并开启邀约内测。其核心功能AGI相机可通过镜头识别场景内容,实现拍摄即问、实时理解与回答,强调认知层理解,具备强场景分析与多模态推理能力。
豆包编程升级,新增创作模式,让创意轻松实现。 2025年10月24日,豆包编程完成重大升级,让零基础用户也能轻松开发网站和应用。此次升级引入多模态输入功能,支持文字、图片、文件、画板等多种输入形式,AI可自动理解并补全逻辑。新增Agent多工具协作系统,自动联网搜索素材、配图、检查代码,确保生成内容的准确性和可用性。
行业动态
灵巧手公司星际光年完成Pre-A轮融资。 2025年10月21日,深圳星际光年科技有限公司发布新品五指灵巧手Pantheon 22,并完成Pre-A轮融资。本轮融资由赛纳资本、普华资本领投,柯熙创投跟投,深渡资本担任财务顾问。资金将主要用于灵巧操作底层技术攻关、灵巧手操作系统(小脑模型)研发及核心团队扩张。
LiblibAI融资1.3亿美金,红杉CMC领投。 2025年10月23日,LiblibAI近期完成1.3亿美元B轮融资,由红杉中国、CMC资本及大厂战投联合领投,是今年中国AI应用领域最大一笔融资。LiblibAI上月发布2.0版本,从模型社区进化为AI创作Studio。
蚂蚁集团投的灵巧手公司,又融了数亿元。 2025年10月24日,灵心巧手宣布完成数亿元A轮融资,由京国瑞管理公司和博佳资本领投,老股东蚂蚁集团继续加注。本轮融资将助力其加速量产能力升级、加快全场景技术研发与全球化布局。
谷歌官方学习平台 Google Skills 来了,免费还实用。 2025年10月24日,谷歌推出AI技能学习平台Google Skills,整合Google Cloud、DeepMind等团队资源,提供近3000门课程、实验室及认证,覆盖AI基础、生成式AI、数据分析等领域。平台面向全职场人群,零门槛接入,每月免费提供35个学习点数用于实操实验。