首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ChatGPT背错了《木兰辞》,好还是不好?

今天让ChatGPT背了一下《木兰辞》,结果出现了2处错误:

错误一

错误二

这篇《木兰辞》比较长,对于人工智能来说,虽然出现2处错误,但是整体按字数来计算的话正确率达到了96%左右,在现阶段已经是很好的水平了(对于新技术要包容一些,多一些对未来的期待)。

那么,我们来分析一下为什么说这已经是一个很好的表现了。

首先,人工智能主要是使用神经网络技术来进行数据处理的,也就是说,它会把经过编码的文字信息(用嵌入表示的向量)输入到神经网络中,经过数学运算以后得出字库中每个字在该上下文中的正确概率(输出信息是逐字计算的),然后选择概率最大的字作为最终的输出信息。

神经网络示意图

其次,神经网络需要计算的数据量是极其庞大的。作为输入的文字信息,可以是我们所需的任何信息,所以输入信息的具体数量其实是无穷的。在这里我们做一个简化处理,假定我们常用的可以作为输入的信息有1亿个,然后神经网络需要能够计算全部的输入信息(根据用户输入的信息进行计算)。在输出时,假定我们常用的字库中有1万个字,那么神经网络对任意一个输入都会输出1万个数字(分别表示每个字的正确概率)。1亿个输入就会产生1亿乘以1万,也就是1万亿个输出数字(每次运算都会输出1万个),那么,神经网络(经过训练以后)有能力正确的输出上述1万亿个数字以应对各种具体的信息需求吗?

能否让上述的1万亿个输出数字个个都是准确的呢(准确率100%)?答案是否定的,而且在可以预见的未来都不可能做到100%的准确率。这是因为不管神经网络如何设计、如何计算,它最终只能有1套确定的参数。也就是说,每一个输入信息都是经过相同的1套参数进行数学运算的,而这是无法精确到让每个输出数字能够足够准确的。

最终,我们只能通过优化来尽量取得一个较高的准确率,比如该案例中的96%。更深层次来讲,神经网络会尽量侧重于优化常见的信息(是否常见,由训练数据集的数据特性而定)。也就是说,越是常见的信息,神经网络的准确率就是越接近100%。而较生僻的信息,比如《木兰辞》,神经网络的准确率就会较低(当然更生僻的信息会得到更差的结果)。

上述的特点是由神经网络技术本身的局限性导致的,在可以预见的未来都是这样的。所以我们在使用AI时,对于得到的回答是否准确,需要有所评估,不可盲目的全部采纳。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230529A08JDU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券