首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

---- 新智元报道   编辑:编辑部 【新智元导读】谷歌刚刚上线了一个炸弹级「通才」模型PaLM-E,足足有5620亿参数。它是一种多模态具身视觉语言模型,从引导机器人执行任务,到回答关于可观察世界的问题,全都能搞定。 大语言模型的飞速「变异」,让人类社会的走向越来越科幻了。点亮这棵科技树后,「终结者」的现实仿佛离我们越来越近。 前几天,微软刚宣布了一个实验框架,能用ChatGPT来控制机器人和无人机。 谷歌当然也不甘其后,在周一,来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaL

02

北京现代工厂案例:利用智能相机解决机器人精确抓取问题

北京现代拥有3 座整车生产工厂、3 座发动机生产工厂和1 座承担自主研发的技术中心。北京现代拥有近300 台机器人,分别应用在车身焊接、车身冲压、发动机组装、涂装等各种关键工位中。公司依靠先进的自动化制造装备,保障100%焊接与运输自动化率,100%自动化冲压生产,确保车身焊接质量与车身强度。 在发动机生产工厂,汽车发动机的缸体搬运工作是由韩国现代公司制造的机器人来进行。在引导机器人进行缸体搬运时,采用的是由韩方定制的工业相机+视觉软件的方式。在生产过程中,遇到了棘手问题,主要是:相机拍照一次检测不成功,需

05

智能主题检测与无监督机器学习:识别颜色教程

介绍 人工智能学习通常由两种主要方法组成:监督学习和无监督的学习。监督学习包括使用现有的训练集,这种训练集由预先标记的分类数据列组成。机器学习算法会发现数据的特征和这一列的标签(或输出)之间的关联。通过这种方式,机器学习模型可以预测它从来没有公开过的新的数据列,并且根据它的训练数据返回一个精确的分类。在你已经有了预先分类的数据的情况下,监督学习对于大数据集是非常有用的。 在另一种是无监督的学习。使用这种学习方式,数据不需要在训练集中进行预先标记或预分类,相反,机器学习算法在数据的特征中发现相似的特征和关

04

Reformer: 高效的Transformer

理解序列数据 —— 如语言、音乐或视频 —— 是一项具有挑战性的任务,特别是当它依赖于大量的周围环境时。例如,如果一个人或一个物体在视频中消失,很久以后又重新出现,许多模型就会忘记它的样子。在语言领域,长短时记忆(LSTM)神经网络覆盖了足够的上下文来逐句翻译。在这种情况下,上下文窗口(在翻译过程中需要考虑的数据范围),从几十个词到大约 100 个词不等。最新的 Transformer 模型不仅改进了逐句翻译的性能,还可以通过多文档摘要生成整个 Wikipedia 的文章。这是可能的,因为 Transformer 使用的上下文窗口可以扩展到数千个单词。有了这样一个大的上下文窗口,Transformer 可以用于文本以外的应用,包括像素或音符,使其能够用于生成音乐和图像。

01

5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度

机器之心报道 编辑:张倩、陈萍 机器人越来越像人了!谷歌等的这项研究将现实世界的信息通过传感器纳入多模态语言模型,不但能执行机器人任务,还具有视觉问答、文本补全等功能。 一直以来,人们都想拥有一款能听懂吩咐的机器人,比如「请帮我热一下午餐」,「请把遥控器帮我拿过来」。这些指令听上去简单,但一旦让机器人去做,失误率还是很高的。 在这一过程中,机器人需要克服很多困难,比如理解指令、分解任务、规划路线、识别物体等等,涉及到的能力跨语言、视觉等多个模态。 为了让机器人更加擅长这些任务,不少研究者都在尝试将大型语言模

03
领券