原创分享计划签约作者
暂无搜索历史
衡量语言建模能力的重要指标,通过计算给定文本序列概率的倒数的几何平均,来衡量模型对于语言的建模能力。基础公式如下:
1.提出了一种Past only quant,attention算子计算使用当前层未量化的kv和历史经过量化的kv
词表大小从32000增加到128256,这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用
Google 2019年发表的论文GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism,1811....
NCCL是一个Nvidia专门为多GPU之间提供通讯的通讯库,或者说是一个多GPU卡通讯的框架 ,提供了包括AllReduce、Broadcast、Reduce...
Huggingface开源大模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH...
PPL LLM只支持baichuan、chatglm、llama三个模型,Tensor-LLM支持几乎所有大模型。
Beam Search思想介绍:如何通俗的理解beam search? - 知乎 (zhihu.com)
技术出处:vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention | vLLM Blog
TensorRT LLM依赖于一个名为Batch Manager的组件来支持请求的即时批处理,该技术旨在减少队列中的等待时间,达到更高的GPU利用率。
导语:模型优化有很多方法,比如模型压缩、模型剪纸、转tensorrt等。本文讨论mxnet模型tesorrt优化,主要解决动态batch、Op不支持问题。
导语:使用nvidia dali库来做图片加载和transforms得到的tensor,比pillow+torchvision得到的tensor,在模型推理时候...
导语:MMDetection是一个基于Pytorch实现的目标检测框架,支持Faster-RCNN、Mask-RCNN、Fast-RCNN等主流目标检测算法。旧...
导语:流量上涨常常造成系统的不稳定,进而出现雪崩。本文讨论常见的限流算法,以及对比一些开源实现。
导语:TensorRT立项之初的名字叫做GPU Inference Engine(简称GIE),是NVIDIA 推出的一款基于CUDA和cudnn的神经网络推断...
AI不止训练,专注工程落地