首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >花了50 美元,测试104个量化大模型大海捞针能力,Qwen3-14B太惊艳了

花了50 美元,测试104个量化大模型大海捞针能力,Qwen3-14B太惊艳了

作者头像
Ai学习的老章
发布2025-06-28 12:51:08
发布2025-06-28 12:51:08
2140
举报

大家好,我是Ai学习的老章

Reddit看到一个帖子:104个量化模型在大海捞针测试中的表现[1]

作者在 H·G·威尔斯的《时间机器》中插入了几段荒谬对话,测试文本长达 1 万词元(约覆盖小说前 5 章内容),并附带简短系统提示要求大模型定位这些荒谬对话并复述。

选择的模型都是可以在 32GB 显存GPU可运行的量化模型

评分标准:所有模型在每个温度值下都进行了多次测试(例如在 0.0、0.1、0.2、0.3 等温度下分别进行多次测试),这些结果被汇总为最终得分。

"得分"列表示 LLM 成功解决提示的测试百分比(即正确返回异常行的情况)。

所有测试的上下文长度均设置为 16k——这是为了平衡模型在实际使用中在这个上下文范围内的表现,并为列表中的思维模型提供足够的推理空间。

测试结果

Model

量化方式

实验依据

得分

Meta Llama 系列

Llama_3.2_3B

iq4

0

Llama_3.2_3B

q5

0

Llama_3.2_3B

q6 量化

0

Llama_3.1_8B_Instruct

iq4

43

Llama_3.1_8B_Instruct

q5

13

Llama_3.1_8B_Instruct

q6 量化

10

Llama_3.3_70B_Instruct

iq1

13

Llama_3.3_70B_Instruct

iq2

100

Llama_3.3_70B_Instruct

iq3

100

Llama_4_Scout_17B

iq1

93

Llama_4_Scout_17B

iq2

13

英伟达 Nemotron 系列

Llama_3.1_Nemotron_8B_UltraLong

iq4

60

Llama_3.1_Nemotron_8B_UltraLong

q5

67

Llama_3.3_Nemotron_Super_49B

iq2

无思

93

Llama_3.3_Nemotron_Super_49B

iq2

思考

80

Llama_3.3_Nemotron_Super_49B

iq3

思考

100

Llama_3.3_Nemotron_Super_49B

iq3

无思

93

Llama_3.3_Nemotron_Super_49B

iq4

思考

97

Llama_3.3_Nemotron_Super_49B

iq4

无思

93

Mistral 家族

Mistral_Small_24B_2503

iq4

50

Mistral_Small_24B_2503

q5

83

Mistral_Small_24B_2503

q6 量化

77

微软 Phi 系列

Phi_4

iq3

7

Phi_4

iq4

7

Phi_4

q5

20

Phi_4

q6 量化

13

阿里巴巴通义千问系列

Qwen2.5_14B_Instruct

iq4

93

Qwen2.5_14B_Instruct

q5

97

Qwen2.5_14B_Instruct

q6 量化

97

Qwen2.5_Coder_32B

iq4

0

Qwen2.5_Coder_32B_Instruct

q5

0

QwQ_32B

iq2

57

QwQ_32B

iq3

100

QwQ_32B

iq4

67

QwQ_32B

q5

83

QwQ_32B

q6 量化

87

Qwen3_14B

iq3

思考

77

Qwen3_14B

iq3

无思

60

Qwen3_14B

iq4

思考

77

Qwen3_14B

iq4

无思

100

Qwen3_14B

q5

无思

97

Qwen3_14B

q5

思考

77

Qwen3_14B

q6 量化

无思

100

Qwen3_14B

q6 量化

思考

77

Qwen3_30B_A3B

iq3

思考

7

Qwen3_30B_A3B

iq3

无思

0

Qwen3_30B_A3B

iq4

思考

60

Qwen3_30B_A3B

iq4

无思

47

Qwen3_30B_A3B

q5

无思

37

Qwen3_30B_A3B

q5

思考

40

Qwen3_30B_A3B

q6 量化

思考

53

Qwen3_30B_A3B

q6 量化

无思

20

Qwen3_30B_A6B_16_Extreme

q4

无思

0

Qwen3_30B_A6B_16_Extreme

q4

思考

3

Qwen3_30B_A6B_16_Extreme

q5

思考

63

Qwen3_30B_A6B_16_Extreme

q5

无思

20

Qwen3_32B

iq3

思考

63

Qwen3_32B

iq3

无思

60

Qwen3_32B

iq4

无思

93

Qwen3_32B

iq4

思考

80

Qwen3_32B

q5

思考

80

Qwen3_32B

q5

无思

87

Google Gemma 家族

Gemma_3_12B_IT

iq4

0

Gemma_3_12B_IT

q5

0

Gemma_3_12B_IT

q6 量化

0

Gemma_3_27B_IT

iq4

3

Gemma_3_27B_IT

q5

0

Gemma_3_27B_IT

q6 量化

0

深度求索(蒸馏版)系列

DeepSeek_R1_Qwen3_8B

iq4

17

DeepSeek_R1_Qwen3_8B

q5

0

DeepSeek_R1_Qwen3_8B

q6 量化

0

深度求索 R1 蒸馏版千问 32B

iq4

37

深度求索 R1 蒸馏版千问 32B

q5

20

深度求索 R1 蒸馏版千问 32B

q6 量化

30

其他

Cogito_v1_Preview__Qwen_14B_

iq3

3

Cogito_v1_Preview__Qwen_14B_

iq4

13

Cogito_v1_Preview__Qwen_14B_

q5

3

DeepHermes_3_Mistral_24B_Preview

iq4

无思

3

DeepHermes_3_Mistral_24B_Preview

iq4

思考

7

DeepHermes_3_Mistral_24B_Preview

q5

思考

37

DeepHermes_3_Mistral_24B_Preview

q5

无思

0

DeepHermes_3_Mistral_24B_Preview

q6 量化

思考

30

DeepHermes_3_Mistral_24B_Preview

q6 量化

无思

3

GLM_4_32B

iq4

10

GLM_4_32B

q5

17

GLM_4_32B

q6 量化

16

结论

原作提到,这个测试方法并非完全科学严谨,但最终结果何其实际感受还是相符的:

  • Gemma3 27B 在某些场景表现惊艳,但遇到大上下文时性能简直断崖式下跌!
  • Qwen3-32B 非常出色,但面对大上下文时总会过度思考。使用"/nothink"指令略有改善,在实际测试中我通常都会加上这个指令——除非具体用例确实需要高级推理能力
  • 即便 Llama 3.3 70B 受限于 32GB 显存只能运行更低精度的量化版本,其表现依然极具竞争力。我认为 Qwen3-32B 的用户值得将它重新纳入实验对比——尽管这个模型相对较老。
  • 在量化权重时确实存在一个"断崖式下跌"的临界点,但这个临界点在不同模型间差异巨大
  • 英伟达 Nemotron Super 49B 量化模型表现极为出色,在处理类似的大上下文任务时尤为聪明。与 Llama 3.3 70B 类似,建议在某些工作流中尝试使用
  • Nemotron UltraLong 8B 实际表现优异——在长上下文场景中稳定超越本就不俗的 Llama 3.1 8B
  • QwQ 模型的表现远超其参数规模,但推理所需的大量 token 让我更倾向于选择榜单上的其他模型
  • Qwen3-14B 堪称同量级中的冠军选手

参考资料

[1]

104个量化模型在大海捞针测试中的表现: https://www.reddit.com/r/LocalLLM/comments/1liy7ku/i_thousands_of_tests_on_104_different_ggufs_10k/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 测试结果
  • 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档