10月20日:DeepSeek OCR开源,百度PaddleOCR-VL登顶,宇树发布新机器人

AI日报
2025年10月20日
25 阅读

10月20日,AI领域迎来多项技术突破。DeepSeek发布3B参数的OCR模型,压缩效率提升20倍;百度PaddleOCR-VL在HuggingFace上线16小时即登顶全球榜首;宇树推出高仿生人形机器人H2,具备复杂动作和面部特征。

DeepSeek 再开源:发布 3B MoE OCR 模型DeepSeek-OCR

DeepSeek推出全新视觉文本压缩模型DeepSeek-OCR。模型参数仅3B,采用混合专家架构,视觉token数量减少20倍,压缩比达20倍,20个节点每天可处理3300万页数据。在Fox benchmark测试中,各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力,可在多轮对话中实现10倍压缩效率。

宇树发布180cm仿生人形机器人!会跳芭蕾能打功夫

宇树发布第四款人形机器人H2,高180cm,重70kg。相比前代H1,H2在运动流畅性和仿生特征上有显著提升。H2拥有31个关节,分布在双臂、双腿和躯干,能完成芭蕾舞、中国武术等高难度动作。还被赋予了类似人类的面部特征,外观和运动姿态更接近人类。

全球榜首!百度最新开源模型PaddleOCR-VL

百度自研多模态文档解析模型PaddleOCR-VL发布仅16小时就登顶HuggingFace Trending全球第一。模型参数仅0.9B,轻量高效,能精准识别文本、手写汉字、表格等多种复杂元素,支持109种语言。

多模态模型和人形机器人成为当日焦点,技术落地与性能优化同步推进。

OCR模型 人形机器人 多模态AI 开源项目 百度PaddleOCR

相关新闻推荐

查看更多