HuggingFace发布革命性机器人控制模型Pi0
近日,HuggingFace与Physical Intelligence联合发布了开源机器人模型Pi0,这一突破性的模型让机器人可以直接理解并执行人类语言命令,无需复杂的编程过程。从叠衣服到餐桌服务,再到打包杂货,Pi0能够自然流畅地完成各种复杂任务。
该模型经过七个机器人平台和68个任务领域的训练,通过流匹配技术可以实现50Hz的实时动作轨迹生成,确保动作流畅自然且具有适应性。值得一提的是,其快速版本Pi0-FAST采用了频域动作序列标记化技术(FAST),将训练速度提升了5倍。
作为一个开源项目,Pi0的发布大大降低了机器人自动化的门槛,企业可以根据不同应用场景对模型进行微调。不过目前该模型在计算效率和执行可靠性方面仍面临一些挑战。
谷歌发布Gemini 2.0系列重磅更新
谷歌推出了Gemini 2.0 Flash正式版、Flash-Lite公测版以及实验性的Gemini 2.0 Pro。这些模型在Google AI Studio和Vertex AI平台上显著提升了多模态处理能力。
其中,Flash-Lite作为最轻量级的模型,在MMLU Pro和Bird SQL等测试中的表现却超越了Gemini 1.5 Flash,同时保持了100万token的上下文窗口,是行业标准的4倍。Gemini 2.0 Flash则与OpenAI的o3-mini展开直接竞争,在保持高效率的同时不损失性能。
更值得关注的是,谷歌将Gemini 2.0 Flash Thinking模型整合进了地图、YouTube和搜索等核心服务中,为生态系统注入了AI推理能力。而Gemini 2.0 Pro则配备了200万token的上下文窗口,在工具使用、推理和代码执行方面都有显著提升。
OpenAI提升透明度并扩展ChatGPT记忆容量
OpenAI对其O3-Mini模型的思维链(CoT)推理进行了更新,提高了免费和付费用户的透明度,该优化还扩展到了付费用户的O3-Mini-High版本。不过需要注意的是,这些并非原始的CoT输出。
此外,OpenAI还将ChatGPT的记忆限制提升了25%,目前该更新已向Plus、Pro和Team用户开放,即将推广到企业版和教育版账户。
领取专属 10元无门槛券
私享最新 技术干货