对AI语言模型的评估,最简单直观的方式就是——提同样的问题给两个语言模型进行回答,比较它们的回答来判断哪个语言模型的能力更强。我日常使用GTP-3.5比较多,这里的对照组就选了GTP-3.5,读者也可以选择性能能更为强悍的GTP-4或其他语言模型进行比较。
不同的语言模型可能在不同类型的问题上有不同的表现,A语言模型在某类问题上表现优秀,并不代表它在所有问题上都是最好的,所以我选取6个领域,每个领域2-3个不同难度级别的问题进行提问,以便更全面地评估语言模型的性能。另外,还需要考虑模型的回答是否准确、清晰,是否符合问题的语境,这也体现语言模型的逻辑性和语言表达能力。
一想到AI语言模型,大部分人的第一印象就是解放我们的双手,提高生产力(方便我们更好的去摸鱼,那腾讯混元大模型的表现力如何呢?我这里选取三个面试中大家会经常遇到的问题来对比一下。
腾讯混元大模型使用的是微信小程序,这里截图没办法把代码截全,而且也暂不支持PC端的小程序使用,这里还是建议大家亲自试一下。第一个编程问题,两个语言模型都是给出Python的代码示例,各有各的优点,腾讯混元大模型会提供参考的输出结果,GPT-3.5除了注释之外,还有对关键性的代码进行讲解,这一点对初学者来说会更为友好。
这次选了一个业务中很少遇到,但在面试出现很多次的问题,再来看一下各给出的答案吧。
这次两个语言模型给出的示例代码还是一样,但GPT-3.5这次更简洁,我们来看下最后一个问题。
最后一个问题,我在了一道数组遍历和哈希表应用的算法题,相较于前两道有一个难度提升,回答很长,不适合截图,GTP-3.5的我就不贴了,我直接复制腾讯混元大模型的代码和解释给大家看下。
def twoSum(nums, target):
hash_map = {}
for i, num in enumerate(nums):
complement = target - num
if complement in hash_map:
return [hash_map[complement], i]
hash_map[num] = i
return []
解释一下代码:
hash_table
,用于存储数组中每个元素的值和对应的索引。nums
,对于每个元素num
,计算target - num
的值,判断该值是否已经在哈希表中。target - num
,那么这两个元素的索引就是我们要找的答案,直接返回即可。num
和对应的索引i
存入哈希表中。nums
,仍然没有找到符合条件的两个元素,说明不存在这样的两个元素,返回空列表。
这个算法的时间复杂度是O(n)
,因为只需要遍历一次数组,空间复杂度也是O(n)
,因为需要使用哈希表来存储数组中每个元素的值和对应的索引。这次腾讯混元大模型给出了比前两次更详细的回答,这倒是有点出乎我的意料,这让我好奇单纯是因为这一次的问题比较复杂,还是因为用户连续提出某个领域的相关问题,它察觉用户对该领域有了解和学习欲望从而给出详细解释。于是我直接向它发出了灵魂提问——
后续几个领域的问题就不贴图+复制了,我把问题罗列在下面给大家做一个参考,无论是一些知识点的查询,还是想当做一个搜索工具,腾讯混元大模型都给出了满意回答。
关于新闻的这点,AI模型受限于知识库的时间限制,是没有办法提供实时新闻报道,可以通过变化提问方式来了解事件背后的历史和局势。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。