无论我们向AI提出何种问题,模型都会给出答案。为生成这些信息(无论答案是否正确),模型需要使用“标记”(tokens)。标记是单词或单词片段,会被转换为大型语言模型(LLM)可处理的数字串。
这一转换过程及其他计算操作会产生二氧化碳排放。然而,许多用户并未意识到这些技术背后巨大的碳足迹。如今,德国研究人员通过一组标准化问题,测量并比较了不同已训练大型语言模型的二氧化碳排放量。
“向已训练LLM提问的环境影响,很大程度上由其推理方式决定——显式推理过程会显著推高能耗与碳排放。”研究第一作者、慕尼黑应用技术大学研究员Maximilian Dauner表示,“我们发现,具备推理能力的模型产生的二氧化碳排放量,是生成简洁回答模型的50倍之多。”
研究人员评估了14个参数规模从70亿到720亿不等的LLM,覆盖1000个跨学科基准问题(参数决定LLM学习与处理信息的方式)。
推理型模型平均每个问题生成543.5个“思考标记”,而简洁型模型每个问题仅需37.7个标记。思考标记是推理型LLM在生成答案前额外生成的标记。标记量越大,二氧化碳排放越高。但标记量多并不必然意味着答案更准确——冗长细节未必是正确性的关键。
最准确的模型是具备推理能力的700亿参数Cogito模型,准确率达84.9%。但其二氧化碳排放量是同规模简洁回答模型的3倍。“当前,LLM技术中存在明显的‘准确性-可持续性’权衡,”Dauner说,“所有将排放量控制在500克二氧化碳当量以下的模型,在1000个问题上的准确率均未超过80%。”(二氧化碳当量是衡量不同温室气体气候影响的单位。)
问题类型也导致二氧化碳排放量显著差异。需要冗长推理过程的问题(如抽象代数或哲学),其排放量是更简单问题(如高中历史)的6倍之多。
研究人员表示,希望他们的工作能推动用户更理性地决策AI使用方式。“用户可通过提示AI生成简洁回答,或仅在真正需要高算力时使用大容量模型,大幅减少排放。”Dauner指出。
模型选择对二氧化碳排放影响显著。例如,使用DeepSeek R1(700亿参数)回答60万个问题,其排放量相当于伦敦至纽约的往返航班。而Qwen 2.5(720亿参数)在相同排放量下,可回答超3倍数量(约190万)的问题,且准确率相近。
研究人员提到,结果可能受研究中使用的硬件选择、因地区电网能源结构差异导致的排放因子,以及被考察模型本身的限制,这些因素可能影响结论的普适性。
“如果用户知道AI生成内容的具体碳排放成本(例如随意将自己生成成动作玩偶),他们可能会更谨慎地选择使用时机与方式。”Dauner总结道。
领取专属 10元无门槛券
私享最新 技术干货