最近这两天的公众号无脑给我推送 deepseek V3,大多是用了极少的训练成本完成了很高的性能,并且在同类相关的 benchmark 测试上YYLX。刚好在群里和几个伙计聊到这个问题,就问了他们对这个怎么看,回复的原话:**国内的一律不信,**从某种程度上来说我也是赞同这个观点的。
当然在这些推送中也有不乏质疑的声音,比如有人测试到 deepseek 自报家门是 Chat-GPT,如下:
img
笔者在测试的时候这个已经被纠正了。
好奇害死猫,我又将其他几个在线 LLM 挨个来了一遍:
• 1、全部新建对话,避免存在 history 影响
• 2、无 system prompt 设置
来看看这些 LLMer 的表现(不发表任何观点,各位读者自行体会),
deepseek
img通义千问
imgKimi
img豆包
img星火
imgchatgpt
img
领取专属 10元无门槛券
私享最新 技术干货