谷歌开发出目前最先进的自然语言处理预训练技术-BERT

入到21世纪以来,人类的各项科学技术都在突飞猛进的发展。对于人工智能,相信大家也不会陌生。其中人工智能有一个非常重要的分支也是他的子类别,叫做自然语言处理。

自然语言处理是一门融语言学,计算机科学,数学与一体的科学。他的研究能够实现人鱼计算机之间使用自然语言进行有效通信的各种理论和方法。用自然语言与计算机之间进行通讯,这是人们长期以来的追求人们可以通过它来进一步的了解人类的语言能力和智能的机制。

自然语言处理,可以说是承载了语言翻译,情感分析,语义的搜索和其他的数十项的语言任务。可是想要达到人类理想的程度,必须要获取到足够大的数据集来训练文本解析人工智能系统,这对研究人员来说是一个持续的挑战。

本周谷歌开源其尖端的技术——双向编码器陈述变压器、或伯特——它声称使开发人员训练30分钟的“先进的”NLP模型在一个云TPU(张量处理单元,谷歌的云加速器硬件)或几小时在一个图形处理单元。它包含了预先训练好的语言表示模型(英语)和构建在山景公司TensorFlow机器学习框架上的源代码。另外,在Colab上有相应的笔记本,谷歌为AI开发者提供的免费云服务。

正如谷歌AI的研究科学家雅各布?德夫林(Jacob Devlin)和张明伟(Ming-Wei Chang)所解释的那样,BERT的独特之处在于它是双向的,允许它从过去和未来的方向访问上下文,并且不受监督,这意味着它可以摄取既不分类也不标签的数据。这与传统的自然语言处理模型(如word2vec和GloVe)不同,后者为词汇表中的每个单词生成一个上下文无关的单词嵌入。BERT通过对任何语料库都能生成的任务进行预处理来学习模拟句子之间的关系。它构建在谷歌的Transformer之上,Transformer是一个开源神经网络架构,基于针对自然语言处理的自我关注机制进行优化。

在测试阶段,BERT的测试准确率达到了百分之九十三点二,已经超过了之间的最高水平,和人类的水平。这是非常惊人的。

当然相信在不久的将来,随着科学技术的进步,人类可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不是很自然和习惯的各种计算机语言,这是非常令人期待的。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181103A0ZHCV00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券