首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

华为微人工智能模型略胜谷歌,可改善手机上小爱同学等众多应用

研究人员成功缩小了一个巨大语言模型以用于商业应用。

有谁会在乎呢?例如,去年10月,谷歌发布了一个名为BERT的模型,它通过了该领域长期以来的阅读理解基准测试。较大版本的模型有3.4亿个数据参数,一次训练就能消耗足够美国一个家庭使用50天的电力

四个月后,OpenAI很快推出了GPT-2。这个模型展示了构建令人信服的散文的技巧;但使用了15亿个参数。而英伟达公司最新、最大的模型MegatronLM更是拥有83亿个参数。(是的,事情正在失控。)

大、坏、丑人工智能研究人员越来越担心这种趋势的后果。今年6月,马萨诸塞大学阿姆赫斯特分校的一个研究小组展示了大规模开发和训练模型对气候的影响。他们计算出,训练BERT所排放的碳几乎相当于纽约到旧金山的往返航班;据此推断,GPT-2MegatronLM可能会排放更多的二氧化碳。

这一趋势还可能加速人工智能研究集中到少数科技巨头手中。在学术界或资源较少的国家,资源不足的实验室根本没有办法使用或开发这种计算昂贵的模型。

缩小的人工智能:作为对此的应对,许多研究人员专注于缩小现有模型的规模而不丧失它们的能力。最近有两篇新的论文在一天之内相继发表,它们成功地用1亿个参数对较小版本的BERT做了同样的事情。

第一篇论文是由华为的研究人员撰写,论文中提出了一种名为TinyBERT的模型,它的大小不到原始模型的七分之一,而且速度快了近10倍。它在语言理解方面也几乎和原版一样好。第二篇是谷歌的研究人员发表的,比华为的要小60倍,但它的语言理解能力比华为的略差

他们是如何做到的:两篇论文都使用了一种常见压缩技术的变体,即知识蒸馏它使用你想要缩小的大型AI模型(“老师”)来训练一个更小的模型(“学生”)。要做到这一点,你需要向两个系统输入相同的信息,然后对学生进行调整,直到它的输出与老师的相匹配。

实验室之外:微模型不仅能让更多人的使用上最先进的人工智能,而且也将有助于把最新的人工智能进展带到消费者设备上。可以不需要再将消费者数据发送到云端这样既提高了速度又增强了隐私。特别是对于自然语言模型,更强大的文本预测语言生成可以改进无数的应用程序,比如手机上的自动拼写和语音助手,比如小爱同学和Alexa。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191008A057DU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券