文章开始前
看到这个标题,我想有些人可能马上想到,脑吧又要怼人了!想起号就得故意制造话题等等。
但这次可能不太一样。与其说怼人,倒不如是期待互动。因此这次我起了一个“可能是”的标题,希望这件事情越辨越明。
Tips:文章内容中任意文字均不是由AI生成(但图片就不好说了),可放心食用。
前言
几个月前,我连续写了三篇关于Deepseek的部署文章,连同视频,共计做了7个稿件(如果大家不熟悉,可以点击下面的链接)。
服务器繁忙,请稍后再试。
Deepseek学妹真是太贵了——本地部署平台搭建推荐
这可能是目前最有性价比的Deepseek部署方案
可以说我为了部署Deepseek,也算是花了一点时间、精力与金钱研究。当然也谈不上研究,应该只能算作皮毛的探索。到目前为止,我的Deepseek为了做了很多工作。
但你要我说真的就满足了嘛?其实并不。因为我至今也没有能实现像网上一样既是完整参数且速度接近的方案。很多时候我还是一边用网上的Deepseek+本地的其他AI模型同步处理。所以我对于更好方案的探索一直没有停止。
于是前段时间,我阴差阳错的刷到了这篇文章。
700块48G显存,我买到了英伟达不敢看的显存容量!
在学术界内,引用文章是很常见的行为。当然在我们民间,引用这个词好多时候等于引战。所以我这里不对文章内容截图,也不对文章的字段截取。就引用了对方的文章链接,符合微信的规范。那么各位也不必怕说这是引流,因为要双方都明白这个事情,就有必要让双方辩手都澄清观点。
700块钱的48G显存?如此诱惑的标题立刻引起我的关注,我随即点开了文章。但是当我看下来后,我只感受到了一种无助感,神似被疑似AI欺骗,看着一堆哗众取宠与花嘴利舌敷衍内容。
一份花言巧语的“推荐”报告
前言(Introduction)
如这位作者所述,他最初在闲鱼找到一个只用700元的NEC 矢量计算卡,即可拥有48G HBM2显存的卡。
那我也从闲鱼截到了这张图。如果我们仅看开头,作者就用了大量的修辞手法,如电子海水,生锈鱼钩等比喻手法构建科技消费的荒诞感;引入大量的拟人手法赋予科技人性化特质;指快过脑等夸张的修辞手法渲染心理冲击。全文在构建故事,营造沉浸感,特写心理活动等方面做到了恰到好处,而最后的悬念设置更是引发读者的共情。
如果这是一篇高考作文,光是这样的开头大概已经让阅卷老师为之动心。但可惜并不是。你也许会说,啊win8,别人写故事跌宕起伏引人入胜,难道不值得夸奖吗?如果光从这个开头,如此独到的书写能力,确实值得夸奖,但一篇文章的重点不是在于你和花言巧语的写了什么,而是你想给大家传递什么。
综述(Review)
接下来,作者开始了“暴力”拆解。首先我们先明白,何为拆解?
比如这种?
又或者是这种?
拆解,是东西到了自己的手上,你选择把这个物品分解为一个又一个的部分,然后逐一分析各个部件。所谓先拆后解既是如此。而“暴力”二字,更是凸显出为了了解清楚内部结构,不惜冒着损坏物品本身的代价进行拆分解析。
那么作者的拆解是如何的拆解呢?
他给了一张图!而这张图实际上是NEC官方提供的PPT,以解析这张核心。当然,我并不反对此种“拆解”。因为有些时候,对于一些比较珍惜的物品,你可能会选择别人的拆作为自己解的依据。但此时他的文字描述已经与他的行为产生了反差,这让我已经感到了疑惑。顺带一提,图片中的这个卡真的是他手上的卡嘛?
当我对他的文章内容产生疑惑与不解时,文章的后续章节更是让我大惊失色。
实验(Test)
作为一张如此独特的显卡,想必如果能真的如他所述,打通了任督二脉,支持各种实验测试,那么这张显卡一定能成为新的AI神器。从作者的描述来看,作者采用了某X99工作主板,E5-2696V3,Ubuntu 24.04系统,以及NEC官方的Linux驱动,作者更是把安装驱动的过程比作解谜游戏。而实战的项目更是一鸣惊人,直接采用Deepseek运行作为测试项目。
作为曾经了解过Deepseek部署的我和你,都记得,这些模型的部署可以用成熟的软件,如Ollama,或者专门开发的软件,如vLLM。那按照这张显卡的定位,想必肯定经过了对vLLM一番严谨深入的魔改,才得到了性能吧?
那么作者提供了什么数据呢?一点数据都没有!不仅没有测试的Deepseek参数量,推理速度表现,甚至连最基本的运行截图都没有。而凭空出现的功耗表现和顶着冒黑烟的风险更是无从而来,仿佛一切都像是AI从网络中摘抄而得的参考一样,于是机灵的我立马尝试问了Deepseek一个问题。
ok……看来不是一个Deepseek。
总结(Conclusion)
结论时,作者不仅向读者传递了使用这张卡的风险所在,更是进一步歌颂了“垃圾佬”对于挖掘冷门硬件产品支持与适配的探索精神。从硬件本身上升到精神层面,给予各位敢于探索的领路人希望与支持。作者更是表达了自己的显卡正在使用服役。仿佛这就是“垃圾佬”的信念般。以此,结束了本篇文章。
那么到我了,看完文章,我只想说一句:
What the Fxxk are you talking about?
也许马上有人会说啦,啊win8你太苛刻了,这是人家一篇普通的介绍文章,你就当乐子看不就好了嘛。
当你满怀希望的去到了北京的一家粤菜馆想吃份肠粉,而店家给你端上来一份疑似肠粉的条状物并给你了一碟辣椒,并说这是正宗肠粉,而咬下一口时却发现里面是一颗甜甜的珍珠时……
(我Be like)
作为一篇“推荐”硬件的文章,全文花费了大量的精力在文字上,赋予自己所谓的“精神胜利法”。而对于硬件本身最需要被利用的软硬件部分只字未提,甚至存在故意隐瞒的行为。我可以说这篇文章真是极其的失败,甚至可以称为标题党!
那可能有些人会说了,啊win8难道你没有看到文章开头写的“本文故事纯属虚构,但机器都是精挑细选的数码好物”。他难道没有推荐了一个产品让你产生研究的倾向了吗?
说的没错,从文字逻辑上,我们确实可以把下面的一切都归为故事会,但粉丝的行为不会骗人。咸鱼上买了用不了的“笨蛋”不会骗人。
“纯属虚构”
“我以为是故事会呢”
“和那些导购涨价说去吧”
“你怎么还没买啊”
那么看完文章的你,作何感想呢?
一份文采平平的理工男“推荐”报告
NEC SX-Aurora TSUBASA是一张专为日本矢量型超级计算机“地球模拟器”设计的一张专用加速卡。该卡拥有多种型号,其中在官网标注的型号包含5个,分别为Type 30A、Type 20A、Type 20B、Type 10A-E与Type 10C-E。以下是各型号的关键参数对比。
该加速卡一般被称之为NEC Vector Engine(矢量加速器),作为一张为超算设计的显卡,其设计与软件支持依赖其公司NEC HPC部门。
目前,NEC Vector Engine部分型号已应用于NEC HPE中,如HPE ProLiant DL380 Gen10中,在官方文档的支持中,仅提及支持RHEL与CentOS 7.4/7.5系统,不排除可通过魔改实现其他系统支持,暂未有相应的实现案例。
https://www.hpe.com/psnow/doc/a00059759enw
NEC公司曾在过去一段时间内努力推进自家的向量加速器通用化。2021年,NEC在自家官网发布了VEDA API,旨在为自家的向量加速器提供标准化的API。随后,Pytorch出现了关于VE Device适配的issue,该后端修改已于VEDA API发布前成功Merged进入Pytorch中,相关论文也已公布并被收录至CCGRID CCF C类学术会议中,但是在网络搜索中并未见到民间对于显卡的测试与实验:
NEC在自家官网发布的VEDA API:
https://www.nec.com/en/global/solutions/hpc/articles/tech12.html
Pytorch VE Device support:
https://github.com/pytorch/pytorch/issues/59296
Pytorch VE Device branch:
https://github.com/pytorch/pytorch/tree/25e077bce19bc8466d57a6335521239791e1adb2
Vector Engine相关论文与性能对比:
https://arxiv.org/abs/2003.10688
从论文实验结果来看,即使是使用了专用后端优化的SX-Aurora VE10B,在1200GB/s的超高带宽下,其推理性能也仅仅追平同样优化后的NVIDIA Titan V,某些情况甚至不及NVIDIA Quadro P4000。前者拥有651.3GB/s带宽,后者仅有243.3GB/s的带宽。
你也许会疑惑,VE10B型号并未在上文提及,实际上该型号仅在NEC的PPT中以SKU的简短形式出现,其规格如下。
目前在闲鱼中有大量类似的显卡正在销售。如10CA,10BP等。从背景与图片布局来看,很可能都是出自同一个人的多个账号,亦或者是一个人被多个人复制黏贴转手。价格也从700至2780元不等。
根据上文描述,10CA实际为一张24GB HBM2显卡,带宽仅为0.75TB/s。而10BP则是真正的48GB HBM2、提供1.2TB/s带宽的计算卡。
但是从任何角度来看,这张显卡都不具备使用价值。虽然能够支持Pytorch,但是对于当前的Transformer支持可能并不全面,而更主流的AI编译后端如llama.cpp的支持更是近乎于0。
NEC公司负责人也于2023年表示将会逐步提供对标AMD MI300系列显卡的计算单元,预示着将逐步放弃对SX-Aurora的支持与改进。
https://www.nextplatform.com/2023/03/23/is-this-the-end-of-the-line-for-nec-vector-supercomputers/
但秉持着“垃圾佬”的钻研精神与传承,我不妨把这些可能会用到的链接放到这里,说不定会有人能实现功能的支持。
SX-Aurora backend: https://github.com/sx-aurora/aveo
Veda API: https://github.com/sx-aurora/veda
SX-Aurora driver: https://github.com/veos-sxarr-NEC/ve_drv-kmod
重要声明:以上信息可能存在错误!请注意甄别!如要反驳,不妨拍一张这样的照片(包含硬件上机,软件截图)进行论证。
你喜欢哪个?
我可以确定的是,一定会有人去这位作者下评论,引战。而这无非两种结果。
:作者看到了我的文章,他来到我这里,与我进行深入且友好的交流,随后他发布了驱动安装与软件支持的详细步骤,我们两者不会发生冲突,而粉丝私底下打成一锅粥,最后慢慢平息。
:作者看到了我的文章,他觉得我在羞辱他,于是他也写了一篇文章回怼我,可能还会收集我过往的大量黑料,集中攻击,互撕,粉丝私底下打成一锅粥,最后慢慢平息。
当然也还有可能的是:
:作者是个AI,他不会生气,什么都不会发生。
那么大家觉得我是一个怼人的文章嘛?我感觉挺“像的”。毕竟全文充斥着对原文和原作者行为的疑惑。可能确实是以前教育养成的“坏”习惯。总是质疑……也许真是因为我太望真的有一张700元48G的显卡来拯救我那只有6Token/s的70B Deepseek了,所以我才如此“愤慨”的写了这篇文章。
不过这篇文章还有一个更好的结果:有一位闲着没事的大佬,突然看到了这张卡的闪光点,于是闷头几个星期,写出了SX-Aurora的llama或者vLLM支持,然后发布到B站,Github甚至全世界各地!这个世界上就多了一个可以选择的新显卡!?
最后,我也想用一句语录来点评我这篇文章。
“真知源于实证,非华辞可成。”
——一位未成功驯服NEC矢量卡的一般路过垃圾佬语录
哦对哦,忘了说了,这个作者他用的拆解图是不是正确的呢?答案是是的,因为2018年Anandtech给NEC做的宣传报告时提到当时的最好型号为一个拥有1.4G,48G HBM2的显卡,正好和10B对应,也就与闲鱼的10B-P对应。
地址:https://www.anandtech.com/show/13259/hot-chips-2018-nec-vector-processor-live-blog
没有
头像
我家智天用win8
没有喜欢作者的选项