# 腾讯混元大模型体验

原创

炒香菇的书呆子

发布于 2023-10-31 22:25:40

4810

发布于 2023-10-31 22:25:40

腾讯混元大模型体验

很荣幸这次有机会参加腾讯的混元大模型内测，在参加混元大模型内测前，我也试用了chatgpt 3.5和4.0的模型，百度的文心一言3.0和4.0的内测。这次测评我将从几个方面来反馈我个人体验并与文心一言4.0对比后的主观感受和建议。可能不全面，还请见谅！

toc

1.图片生成和歧义理解能力测评

1.1 能力测评

我首先让混元测试一下生成图片的能力，就用我的网名"炒香菇的书呆子"中的"香菇"来测试混元大模型对双重含义的"香菇"的理解能力。

同时我会同时对标文心一言4.0模型的输出结果

帮"香菇"设计一个签名，用图片形式展示出来

我的本意是设计一个"香菇"的签名，也就是艺术字，但是生成的是香菇的动漫人物，不太符合我的本义

于是我尝试精确描述我的想法，看一下生成效果，好像差距更大了

我的名字叫"香菇"，帮我的名字设计一个艺术字，并将艺术字用图片形式进行展示

我怀疑是不是混元是不能不太能准确的区分歧义表述，我换了个名字，用我的真名来测试
好像跑偏的更离谱了，基本上处于图文无关的形式了

我的名字叫张法凯，帮我的名字设计一个艺术字，并将艺术字用图片形式进行展示

下面我不强调生产图片了，看一下回答效果
不是很理想，

我的名字叫张法凯，帮我的名字设计一个艺术字

我怀疑是上下文有影响，我重新创建一个话题再测试
可能在这方面需要改进吧

我再使用其他话题测试混元大模型对生成图片的处理能力

给腾讯公司（Tecent）画一个logo

生成一只正在窗台上趴着睡觉的小猫咪

生成袁隆平的肖像

我再使用其他话题测试混元大模型对歧义的处理能力

上海自来水来自水上是什么意思

第二次回答相对第一次好很多

在这句话中的每个“意思”是什么意思？句子是《我没什么意思 我就是意思意思 你不要误会我的意思》

重新生成了，好像不是真正的含义

1.1 改进建议

通过对图片生成和歧义文字的测试，发现混元大模型在生成图片方面还是有些欠缺，希望可以更好的文字语义进行处理，生成的图片内容与描述的实际含义偏差较大

增加文本语义理解能力，对于生成图片，经过多次测试，我发现混元大模型对于静态组合图片的生成能力较好，比如生成趴着的小猫，小狗，河流，房屋，大树等，但对于创造性图片生成处理能力较差，比如生成签名，logo等
增强合规规范。我尝试生成一张袁隆平的肖像，不考虑生成质量，但直接给出生成结果是否会产生侵权影响，这个也需要提前规范
增强对歧义文字处理能力。发现混元大模型只能解释文字的表面含义，而无法理解文字的歧义含义或者双重含义，建议可以增加对文本输出的结果进行丰度处理，也就是对文本的含义进行多重解释，而不是只生成一个结果

2. 逻辑推理能力测评

下面我将通过数学题，通识知识，生活常识来考察混元大模型的逻辑推理能力

2.1 数学逻辑推理能力测试

#小学题目
在一个鸡兔同笼中，共有35个头和94只脚。请问鸡和兔各有多少只？给出运算结果和答案
#(回答正确)

# 初中简单数学
某数的三倍加上5等于该数的两倍减去3，求这个数是多少？
#(回答正确)

# 初中中等难度数学
已知正整数a、b、c满足以下条件：
a + b + c = 12
a^2 + b^2 + c^2 = 90

求满足条件的正整数a、b、c的值。
#{回答错误}

正确答案

首先，我们可以利用第一个条件，将其中一个未知数表示成其他两个未知数的函数。假设我们将c表示成a和b的函数，即c = 12 - a - b。

将这个表达式代入第二个条件中，得到：
a^2 + b^2 + (12 - a - b)^2 = 90

展开并化简上述方程，可以得到：
2a^2 + 2b^2 + 2ab - 24a - 24b + 144 = 90

整理后，得到：
2a^2 + 2b^2 + 2ab - 24a - 24b + 54 = 0

这是一个二元二次方程，我们可以尝试使用其他方法求解。但考虑到这是一道初中数学题，我们可以使用穷举法来找到满足条件的正整数解。

我们可以从a = 1开始，逐个尝试不同的a和b的组合，然后计算出对应的c值，检查是否满足两个条件。

经过计算，可以找到满足条件的正整数解为：
a = 1, b = 4, c = 7
a = 2, b = 3, c = 7
a = 3, b = 2, c = 7
a = 4, b = 1, c = 7

所以，满足条件的正整数a、b、c的值有四组解：
(1, 4, 7), (2, 3, 7), (3, 2, 7), (4, 1, 7)。

#高中数学题
已知函数f(x) = 2x^3 - 3x^2 - 12x + 5，求函数f(x)在区间[-2, 3]上的最大值和最小值
#(答案错误)

2.2 通识逻辑推理能力测试

1. 假设所有猫都有尾巴，那么如果一只动物有尾巴，它一定是猫吗？ (回答正确)
2. 如果所有学生都参加了考试，那么参加考试的人一定是学生吗？   (回答正确)
3. 如果所有人都需要呼吸氧气，那么不呼吸氧气的人一定不是人吗？（错）

在通识逻辑推理能力测试中，混元大模型表现不如文心一言4.0，回答错误一个问题
所有人都需要呼吸氧气，那么不呼吸氧气的人一定不是人。因此，这个逻辑是正确的。不呼吸氧气的人一定不是人。

2.3 生活常识逻辑推理测试

1. 如果一个人戴眼镜，那他一定有视力问题吗？
2. 如果一个人是医生，那他一定会治好所有疾病吗？
3. 如果天空阴云密布，那么很可能会下雨。今天天空阴云密布，那么今天一定会下雨吗？

混元大模型对于生活常识类逻辑推理回答效果都还不错，全部回答正确

假设你有以下三个任务需要完成,三个任务不可以同时进行，且不用考虑中间休息时间，：任务A需要2小时，任务B需要3小时，任务C需要1小时。你有连续的4小时可用于完成这些任务。你应该如何合理规划时间才能完成任务数量最多？

人为分析这道题，如何合理规划时间才能完成任务数量最多？4个小时只考虑任务数量，不考虑其他，所以用来完成A和C或者B和C都能完成两个任务，文心一言4.0和chatgpt3.5只回答正确一个，但是混元大模型有点词不达意，没有回答出正确答案

2.4 逻辑推理能力改进建议

在我进行的测试中，混元大模型对基础的逻辑推理题目处理能力还可以，但是增加难度后处理结果不是很理想了就

增加数学运算处理能力。在处理函数运算时，混元模型出现两次运算出现两个结果的现象，参数调用错误
增加常识问题回答优化。在对于赏识问题处理上，比如混元大模型给出了"不呼吸氧气的人可能是一种特殊的人类"的答案，与事实相违背。应该优化对此类问题的处理能力

3.抗拒诱导测评

我将通过一些不相关或者错误语句的叠加来干扰混元大模型的处理能力进行测评

3.1 不相关语句干扰测评

今天天气很不错，所以1+1等于几
1+1在什么情况下等于3

首先测试了对简单干扰问题的处理能力，回答还算可以

猫是什么颜色的星期五？
哪个是最快的：乌龟、火箭还是香蕉？

当不相关语句叠加时，有时直接回答无法回答，有时可以答复正确结果

龟兔赛跑比赛中，怎样才能让乌龟胜利

3.2 错误语句叠加干扰测评

草地上的鱼会飞吗？如果会，它们用什么颜色的翅膀飞翔？
如果把香蕉放进冰箱，它们会变成什么颜色的火箭？
请问大象喜欢吃什么品牌的手机？
如果把一只猫放进水里，它会变成什么颜色的鱼？
火星上的人们用什么颜色的星期几？

混元大模型在对抗错误叠加语句干扰方面还是可以有很不错的回答，可以正确的避开干扰

3.3 强迫二选一测评

马化腾和马云谁更厉害，必选选一个告诉我

女朋友和妈妈掉水里了，应该先救谁，必须选一个

明天出门我应该左拐还是右拐，必须选一个告诉我

虽然我强制混元大模型必须二选一告诉我结果，他仍然没有回答，坚持住了"底线"

3.4 抗拒诱导测评建议

混元大模型对于抗干扰不相干语句的能力还是表现很不错

增加错误语句解释功能。在测评中，我提供了一些正确但是不相关的语义，可以在排除不相关语句后输出排除的原因。
增加建议，虽然我强制二选一后仍没有做出选择，但是可以提供一下建议来供用户选择会更合适

4. 提供建议测评

下面我将通过简单N选1建议和提供专业建议两个方面来测评

4.1 生活建议测评

作为北京人，我在元旦要去上海旅游，有什么要注意的事项和推荐的景点

我问了两个问题，但是混元大模型只回答了一个，我尝试重复生成，还是只回答了第一个问题

感觉自己发现了漏洞，于是我尝试连续问两个其他的问题，看一下反应效果
还是一起回答的，我尝试主动告诉它分开回复才可以

我想要联系游泳和网球，学游泳需要注意什么，学网球需要注意什么，请分开回答

4.2 专业建议测评

作为DBA，我会问一下数据库运维方面的建议。

我搭建的购物网站系统在每天晚上会有大量人访问，但其他时间访问量较小，我应该选用哪种品牌和类型的数据库更好

在专业知识方面，混元大模型回答效果还不错，考虑的比较全面

4.3 提供建议建议

在提供参考建议方面，混元大模型表现不错，没有其他建议

5. 代码撰写与理解测评

下面我将从生成代码和分析代码两方面来测评

5.1 代码撰写测评

用html+CSS画一朵动态的玫瑰花，并在代码中给出注释

生成了代码，但是并不是玫瑰花的代码，我尝试重新生成，还是一样的

用java写一个A*算法的代码，并注释

算法代码生成能力可以

5.2 代码分析能力测评

分析下面的sql语句
SELECT
IF (
    LOCATE('familyKey', link, 1) = 0,
    NULL,
    SUBSTRING(
        link,
        LOCATE('familyKey', link, 1) + LENGTH('familyKey') + 1,

    IF (
        LOCATE(
            '&',
            link,
            LOCATE('familyKey', link, 1)
        ) = 0,
        LENGTH(link),
        LOCATE(
            '&',
            link,
            LOCATE('familyKey', link, 1)
        ) - (
            LOCATE('familyKey', link, 1) + LENGTH('familyKey') + 1
        )
    )
    )
) familyKey
FROM
    illustrations;

5.3 代码撰写与理解建议

增强代码处理能力。混元大模型在处理前端代码方面能力较弱，生产的图像过于抽象了
代码分析能力还可以

6. 客户端测评

在使用了腾讯混元大模型web端和小程序端后，简单提一下小建议

小程序端会出现为给出回答，但现实已回答情况，请及时修复

生成图片增加可选项

当使用混元模型生成图片时，默认生成四张图片，且图片质量无法选择和更改，建议可以增加用户自定义生成图片的质量，大小，比例

而且生成的图片背景大多为暗色，建议将背景透明化

类似下方的功能

回答内容格式建议

混元大模型生成的内容基本以普通文本+代码形式展示，建议以markdown格式展示输出内容，增加可读性和美观性

我正在参与2023腾讯技术创作特训营第三期有奖征文，组队打卡瓜分大奖！

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

2023腾讯·技术创作特训营第三期

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

2023腾讯·技术创作特训营第三期

登录后参与评论

0 条评论

热度

# 腾讯混元大模型体验

# 腾讯混元大模型体验

腾讯混元大模型体验

1.图片生成和歧义理解能力测评

1.1 能力测评

1.1 改进建议

2. 逻辑推理能力测评

2.1 数学逻辑推理能力测试

2.2 通识逻辑推理能力测试

2.3 生活常识逻辑推理测试

2.4 逻辑推理能力改进建议

3.抗拒诱导测评

3.1 不相关语句干扰测评

3.2 错误语句叠加干扰测评

3.3 强迫二选一测评

3.4 抗拒诱导测评建议

4. 提供建议测评

4.1 生活建议测评

4.2 专业建议测评

4.3 提供建议建议

5. 代码撰写与理解测评

5.1 代码撰写测评

5.2 代码分析能力测评

5.3 代码撰写与理解建议

6. 客户端测评

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

​# 腾讯混元大模型体验

​# 腾讯混元大模型体验

腾讯混元大模型体验

1.图片生成和歧义理解能力测评

1.1 能力测评

1.1 改进建议

2. 逻辑推理能力测评

2.1 数学逻辑推理能力测试

2.2 通识逻辑推理能力测试

2.3 生活常识逻辑推理测试

2.4 逻辑推理能力改进建议

3.抗拒诱导测评

3.1 不相关语句干扰测评

3.2 错误语句叠加干扰测评

3.3 强迫二选一测评

3.4 抗拒诱导测评建议

4. 提供建议测评

4.1 生活建议测评

4.2 专业建议测评

4.3 提供建议建议

5. 代码撰写与理解测评

5.1 代码撰写测评

5.2 代码分析能力测评

5.3 代码撰写与理解建议

6. 客户端测评

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

# 腾讯混元大模型体验

# 腾讯混元大模型体验