前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯混元大模型初体验

腾讯混元大模型初体验

原创
作者头像
Nian糕
修改2023-11-15 16:11:10
3480
修改2023-11-15 16:11:10
Unsplash
Unsplash

对AI语言模型的评估,最简单直观的方式就是——提同样的问题给两个语言模型进行回答,比较它们的回答来判断哪个语言模型的能力更强。我日常使用GTP-3.5比较多,这里的对照组就选了GTP-3.5,读者也可以选择性能能更为强悍的GTP-4或其他语言模型进行比较。

不同的语言模型可能在不同类型的问题上有不同的表现,A语言模型在某类问题上表现优秀,并不代表它在所有问题上都是最好的,所以我选取6个领域,每个领域2-3个不同难度级别的问题进行提问,以便更全面地评估语言模型的性能。另外,还需要考虑模型的回答是否准确、清晰,是否符合问题的语境,这也体现语言模型的逻辑性和语言表达能力。

编程问题

一想到AI语言模型,大部分人的第一印象就是解放我们的双手,提高生产力(方便我们更好的去摸鱼,那腾讯混元大模型的表现力如何呢?我这里选取三个面试中大家会经常遇到的问题来对比一下。

a. 生成一个随机数列表并计算其平均值
编程问题a - 腾讯混元大模型
编程问题a - 腾讯混元大模型
编程问题a - GPT3.5
编程问题a - GPT3.5

腾讯混元大模型使用的是微信小程序,这里截图没办法把代码截全,而且也暂不支持PC端的小程序使用,这里还是建议大家亲自试一下。第一个编程问题,两个语言模型都是给出Python的代码示例,各有各的优点,腾讯混元大模型会提供参考的输出结果,GPT-3.5除了注释之外,还有对关键性的代码进行讲解,这一点对初学者来说会更为友好。

b. 写一个函数,检查一个字符串是否是回文(正读和反读都一样)

这次选了一个业务中很少遇到,但在面试出现很多次的问题,再来看一下各给出的答案吧。

编程问题b - 腾讯混元大模型
编程问题b - 腾讯混元大模型
编程问题b - GPT3.5
编程问题b - GPT3.5

这次两个语言模型给出的示例代码还是一样,但GPT-3.5这次更简洁,我们来看下最后一个问题。

c. 给定一个整数数组和一个目标值,找出数组中两个数的索引,使它们的和等于目标值。你可以假设每个输入只对应一个答案,并且你不可以使用同一个元素两次

最后一个问题,我在了一道数组遍历和哈希表应用的算法题,相较于前两道有一个难度提升,回答很长,不适合截图,GTP-3.5的我就不贴了,我直接复制腾讯混元大模型的代码和解释给大家看下。

代码语言:txt
复制
def twoSum(nums, target):
    hash_map = {}
    for i, num in enumerate(nums):
        complement = target - num
        if complement in hash_map:
            return [hash_map[complement], i]
        hash_map[num] = i
    return []

解释一下代码:

  1. 首先创建一个空的哈希表hash_table,用于存储数组中每个元素的值和对应的索引。
  2. 遍历数组nums,对于每个元素num,计算target - num的值,判断该值是否已经在哈希表中。
  3. 如果该值已经在哈希表中,说明前面已经遍历过一个元素等于target - num,那么这两个元素的索引就是我们要找的答案,直接返回即可。
  4. 如果该值不在哈希表中,将当前元素num和对应的索引i存入哈希表中。
  5. 如果遍历完整个数组nums,仍然没有找到符合条件的两个元素,说明不存在这样的两个元素,返回空列表。 这个算法的时间复杂度是O(n),因为只需要遍历一次数组,空间复杂度也是O(n),因为需要使用哈希表来存储数组中每个元素的值和对应的索引。

这次腾讯混元大模型给出了比前两次更详细的回答,这倒是有点出乎我的意料,这让我好奇单纯是因为这一次的问题比较复杂,还是因为用户连续提出某个领域的相关问题,它察觉用户对该领域有了解和学习欲望从而给出详细解释。于是我直接向它发出了灵魂提问——

灵魂提问
灵魂提问

后续几个领域的问题就不贴图+复制了,我把问题罗列在下面给大家做一个参考,无论是一些知识点的查询,还是想当做一个搜索工具,腾讯混元大模型都给出了满意回答。

  • 常识性问题 a. 水的分子由什么组成? b. 介绍细胞的基本结构和功能。
  • 科学与技术问题 a. 请解释黑洞的形成和特性。 b. 描述深度学习中的“神经网络”结构。
  • 文化与艺术问题 a. 解释印度教的基本教义和信仰体系。 b. 描述巴洛克艺术时期的特点和代表性艺术家。
  • 哲学与伦理问题 a. 探讨自由意志和命运之间的关系。 b. 分析伦理学中的"功利主义"和"义务论"两种观点。
  • 当前事件与新闻 a. 分析新兴技术区块链的工作原理和应用领域。 b1. 以媒称以色列军队已准备好进入加沙地带,巴以冲突目前进展如何? b2. 以媒称以色列军队已准备好进入加沙地带,如何看待当前巴以冲突?

关于新闻的这点,AI模型受限于知识库的时间限制,是没有办法提供实时新闻报道,可以通过变化提问方式来了解事件背后的历史和局势。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 编程问题
    • a. 生成一个随机数列表并计算其平均值
      • b. 写一个函数,检查一个字符串是否是回文(正读和反读都一样)
        • c. 给定一个整数数组和一个目标值,找出数组中两个数的索引,使它们的和等于目标值。你可以假设每个输入只对应一个答案,并且你不可以使用同一个元素两次
        相关产品与服务
        云开发 CloudBase
        云开发(Tencent CloudBase,TCB)是腾讯云提供的云原生一体化开发环境和工具平台,为200万+企业和开发者提供高可用、自动弹性扩缩的后端云服务,可用于云端一体化开发多种端应用(小程序、公众号、Web 应用等),避免了应用开发过程中繁琐的服务器搭建及运维,开发者可以专注于业务逻辑的实现,开发门槛更低,效率更高。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档