尾盘，这个方向急拉！

文章来源：企鹅号 - 格隆汇

2024年2月19日，由谷歌TPU第一代设计者Jonathan Ross所创立的Groq公司正式宣布：新一代LPU（Language Processing Unit），以API形式提供先进的MOE 开源大语言模型 Mistral 8X 7B 的推理，并在多个公开测试中，以几乎最低的价格，相比GPU推理速度翻倍。

存储概念再一次成为市场的焦点，逻辑也非常清晰：

1、技术原理的先进性。Groq的本质即为减少计算中内存调用次数，实现Scale Out，从而实现推理效率的突破。Groq ASIC芯片在推理端的架构优势进一步显现：根据Groq官网白皮文档，Groq LPU的先进源于其设计理念的独立，部分放弃卷积的设计，专注于矩阵X向量、矩阵X矩阵计算。芯片的核心是矩阵乘法单元，矩阵引擎通过具有320个元素的向量进行操作。浮点运算中一对字节平面（byte planes）协作产生一个FP16的输出。芯片的中间是矢量执行模块（VXM，vector execution module）。

2、性能大幅提升。Groq ASIC芯片通过放弃灵活性和训练性能获得推理性能大幅提升：其对大模型的定制化编译，大幅提升推理速度， LPU 运行编译后的LLM代码，执行生成AI推理应用程序。编译器提供可预测的工作负载性能和计时。ASIC芯片在成本优势主要体现在内存：根据Groq创始人采访，与GPU不同，LPU只有一个核心，创始人称之为TISC或时间指令集计算机体系结构。它不需要像GPU那样频繁地从内存重新加载。因此采用SRAM而非昂贵的HBM。目前Groq API推理Mistral的定价低于其它32K 上下文长度GPU 定价。

3、成本大降，商业化前景广阔。边缘推理成本时延有望进一步突破，应用有望快速爆发，相比HBM，SRAM设计下的ASIC芯片有望在边缘端实现更低成本下的快速，灵活的推理，在语音交互，图片和视频生成等场景逐步提供与用户需求匹配的体验，从而带动AI应用进一步快速渗透与迭代。不同于英伟达GPU需要依赖高速数据传输，Grog的LPU在其系统中没有采用高带宽存储器 (HBM)。它使用的是SRAM，其速度比GPU所用的存储器快约20倍。

发表于: 2024-02-202024-02-20 20:00:09
原文链接：https://page.om.qq.com/page/OwHvrIv_F4Z0DuRGizaVIckw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

尾盘，这个方向急拉！

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐