首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

关于“网红”芯片Groq的错误认知

最近几天,国内外人工智能圈子都在热议Groq,这个硅谷人工智能公司的芯片可以做到在大模型推理时每秒处理将近500个token!并且不需要HBM和复杂的芯片堆叠,其推理速度号称全球第一!有媒体更是称这个芯片将替代英伟达的GPU!是真的吗?

来自Groq官网

其实,这个结论大错特错!今天我们就谈谈业界对Groq芯片的错误认知。

首先,Groq 是一家人工智能应用技术公司,由 Jonathan Ross 在 2016 年创立。Ross 曾是 Google 第一个张量处理单元(TPU)的创造者,他的创立理念源于一个观点:芯片设计应从软件定义网络(SDN)中吸取灵感。2024 年 2 月 13 日,Groq 在 ArtificialAnalysis.ai 最新的 LLM 基准测试中明显获胜,Groq 在延迟与吞吐量等关键性能指标上击败了八名参与者,Groq 处理吞吐量达到其他推理服务的 4 倍,同时收费还不到 Mistral 自己的 1/3。

这场比赛让Groq声名鹊起,其实 Groq创新的核心在于其 LPU,就是语言处理单元的缩写,LPU 推理引擎是一种新型的端到端处理单元系统,可为具有顺序组件的计算密集型应用程序提供最快的推理,例如 AI 语言应用程序 (LLM) )。它的核心技术其实是一个名叫TSP的微架构设计,全称叫做张量流处理器,Tensor Streaming Processor,TSP。一句话概括这个微架构,TSP通过独特的功能切片设计、确定性执行以及软件定义的方法来实现高性能和高效率的张量计算。

LPU 克服 LLM应用 的两个瓶颈:计算密度和内存带宽。就 LLM 而言,LPU 比 GPU 和 CPU 具有更大的计算能力。这减少了每个单词的计算时间,从而可以更快地生成文本序列。此外,消除外部内存瓶颈使 LPU 推理引擎能够在 LLM 上提供比 GPU 好几个数量级的性能。

与利用高带宽内存 (HBM) 的 GPU 不同,Groq 的 LPU 利用 SRAM 进行数据处理,从而显着降低能耗并提高效率。

Groq公司设计的第一款TSP ASIC实现了超过每平方毫米硅片1万亿次操作/秒的计算密度,在900 MHz的标称时钟频率下,这款25×29 mm的14nm芯片运行时表现卓越。在ResNet50图像分类任务上,TSP能够在批次大小为1的情况下达到每秒处理20.4K张图片的速度,相较于现代GPU和其他加速器,性能提升了4倍。

如果我们简单粗暴的理解它,就是在一个交通复杂的城市里,LPU收集了所有人早上上班的方向,然后用软件来决定红绿灯,关掉了一条路上所有的交通灯让所有同一方向的车子在这条路上只管往前开,那当然快多了。

从技术和性能上来看,Groq目前还不能撼动英伟达的地位。原因很简单,英伟达的GPU产品是通用的,而Groq的产品形态是ASIC,它不是通用产品,而是一个定制产品。简单点来说,任何一个人工智能算法都可以使用英伟达的H200,但只有Mixtral和Llama 2才能使用Groq的LPU。大模型公司想要使用Groq的产品,还需要先确定需求和指定规格,再进行功能验证,最后生产出来的产品才能使用。

此外,Lepton AI的贾扬清也做了一个详细的计算,发现如果运行三年的话,Groq 的硬件采购成本是 1144 万美元,运营成本是 76.2 万美元或更高。8 卡 H100 的硬件采购成本是 30 万美元,运营成本是 7.2 万美元或略低。

综上所述,虽然Groq的芯片有一些的独特的亮点,但是它不可能替代英伟达的GPU ,它是一款推理用ASIC加速芯片,只能适用特定的模型,而且性价比也不高,本土人工智能公司还是应当将重点放在通用算力提升上。(综合互联网信息整理)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O8vqRXtBeFPa3RUMgpzCfD1w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券