暂无搜索历史
基础镜像地址:https://quay.io/repository/ascend/vllm-ascend?tab=tags&tag=latest
论文原文:https://openreview.net/pdf?id=tkiZQlL04w
显示的是cuda的组件找不到。由于是Ascend环境,肯定是没有GPU的,很明显是onnxruntime的包装错了。
MindIE跑Qwen系列模型推理,测试发现后处理参数top_k很大,temperature=2的场景,模型输出有精度问题。
FastAPI 是一个用于构建 API 的现代、快速(高性能)的 Python Web 框架,专为在 Python 中构建 RESTful API 而设计,具有...
问题就出现在通过python去下载文件,然后SSL的安全校验出现了问题。临时解决办法是,可以规避该校验。
不同指令队列间的相互独立性和可并行执行性,是double buffer优化机制的基石。
单算子API调用方式,是指直接调用单算子API接口,基于C语言的API执行算子。算子工程AscendC从入门到精通系列(三)基于自定义算子工程开发AscendC...
在计算机科学和深度学习领域,算子 tiling(有时也被称作操作符 tiling 或者循环 tiling)是一种优化技术,主要用于提高计算效率,尤其是在处理大规...
Ascend Transformer Boost加速库(下文简称为ATB加速库)是一款高效、可靠的加速库,基于华为Ascend AI处理器,专门为Transfo...
从前文ATB是什么? - 知乎 (zhihu.com)可知,在Ascend Transformer Boost加速库(ATB)中存在三种类型的算子,那么这三种类...
Self-Attention(自注意力)机制是深度学习领域的一种重要技术,尤其在自然语言处理(NLP)任务中得到广泛应用。它是 Transformer 架构的核...
Tracing 是一种收集程序执行过程中事件的技术。它记录了程序运行时发生的事件,如函数调用、I/O操作、系统调用等。在Web开发中,Tracing 通常用于收...
Ascend C和cudnn相似,都是一种多核心编程的范式。想要了解Ascend C,必须得先掌握这种“多核”是怎么实现得。
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市