首页
学习
活动
专区
工具
TVP
发布

量子位

专栏作者
8591
文章
4918889
阅读量
138
订阅数
PyTorch造大模型“加速包”,不到1000行代码提速10倍!英伟达科学家:minGPT以来最好的教程式repo之一
开发团队一开始使用简单的PyTorch来实现,但效果不佳(25.5 tok/s):
量子位
2023-12-05
2450
Keras 3.0正式发布!一统TF/PyTorch/Jax三大后端框架,网友:改变游戏规则
不仅支持TensorFlow、PyTorch、Jax三大框架作为后端,还能在它们之间无缝切换,甚至混合使用。
量子位
2023-11-30
2160
PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍
该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证。
量子位
2023-10-18
2580
雷军入局ChatGPT大战/ AutoGPT星标超PyTorch/ 马斯克星舰今晚发射…今日更多新鲜事在此
h日报君 发自 凹非寺 量子位 | 公众号 QbitAI 大家好,今天是4月17日星期一,新的一周要元气满满哦~ 今天科技圈有哪些新鲜事儿,和日报君一起来看看~ 马斯克星舰今晚发射:将进行直播,此前曾延期 SpaceX官网发布通告称,其所研发的星舰(Starship)将于美国中部时间17日7时(北京时间20时)在德克萨斯州星际基地发射。 据SpaceX介绍,星舰是一种全身可重复使用的客货两用型航天器,未来将帮助人类“重返月球”、前往火星甚至更远的地方。 此前,SpaceX团队已经完成了多次亚轨道飞行测试
量子位
2023-05-06
1650
特斯拉AI总监用300行代码实现“迷你版GPT”,上线GitHub三天收获3.3k星
晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI “GPT并不是一个复杂的模型。” 前OpenAI科学家、现任特斯拉AI总监的Andrej Karpathy在自己的GitHub项目里这样写道。 Karpathy这样说是有底气的,因为他自己只用大约300行PyTorch代码就实现了一个“小型GPT”——minGPT。该项目上线3天以来,已经收获了3.3k星。 “万能”的NLP模型GPT-3这一个月来已经刷爆社交网络,不过1750亿个参数对算力的超高要求也让人望而却步。 但是在Karpathy看来
量子位
2023-03-10
3760
如何用PyTorch进行语义分割?一个教程教会你|资源
木易 发自 凹非寺  量子位 报道 | 公众号 QbitAI 很久没给大家带来教程资源啦。 正值PyTorch 1.7更新,那么我们这次便给大家带来一个PyTorch简单实用的教程资源:用PyTorch进行语义分割。 △图源:stanford 该教程是基于2020年ECCV Vipriors Chalange Start Code实现了语义分割,并且添加了一些技巧。 友情提示:教程中的所有文件均可以在文末的开源地址获取。 预设置 在开始训练之前,得首先设置一下库、数据集等。 库准备 pip install
量子位
2023-03-10
3000
PyTorch 1.7发布:支持CUDA 11、Windows分布式训练
木易 发自 凹非寺  量子位 报道 | 公众号 QbitAI 自从7月份CUDA 11发布以来,就陆陆续续听到了网友类似的吐槽: 这正说着,10月27日,PyTorch团队发布了PyTorch 1.7,终于能支持CUDA 11了,可喜可贺(狗头)。 除此之外,这次1.7的版本,也带来了许多功能的更新和稳定。 在更新上,有了许多新的应用编程接口,如支持与NumPy兼容的快速傅立叶变换的操作及性能分析工具。 此外,分布式数据并行(DDP)和基于远程过程调用(RPC)的分布式训练也有了重大的更新,在Window
量子位
2023-03-10
6440
机器学习也能套模版:在线选择模型和参数,一键生成demo
木易 发自 凹非寺  量子位 报道 | 公众号 QbitAI 连机器学习的代码,也可以套模(tou)版(lan)了。 现在,有一个Web应用程序,可以生成用于机器学习的模板代码(demo),目前支持PyTorch和scikit-learn。 同时,对于初学者来说,这也是一个非常好的工具。在模版中学习机器学习的代码,可以少走一些弯路。 这也难怪开发者在项目的介绍中,这样写道: 这非常适合机器学习的初学者! 这个名为traingenerator的项目,已于最近成功上线,并冲上了reddit的热榜。 这,究竟是
量子位
2023-03-10
1.2K0
PyTorch 1.9发布!移动端疯狂更新,网友:我的最爱
明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 时隔仅3个月,PyTorch再次迎来升级——1.9版本。 这一次,官方把重头戏放在了移动端上。 不仅Mobile Interpreter发布了新版本,而且TorchVision库也支持在手机上使用了,iOS、Android都支持! 网友看了都表示: 这一次更新中,我对移动端最感兴趣。 而此次1.9版本集合了自2021年3月1.8版本发布以来,超过3400次GitHub提交。 除了移动设备端方面,还有其他诸多亮点: 前端API改进(包括torc
量子位
2023-03-10
3940
清华「计图」现在支持国产芯片了!动态图推理比PyTorch快了270倍
明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 清华自研的深度学习框架计图(Jittor)在动态图推理速度上又一次完胜PyTorch。 最近,计图团队完成了在寒武纪芯片MLU270上的移植。 这一次跟寒武纪的合作,使Jittor在backbone网络模型中的动态图推理速度较PyTorch平均提升了276.69倍。 从团队公布的实验结果可以看到,在寒武纪芯片上分别用计图(Jittor)和PyTorch进行推理。 计图(Jittor)在16种backbone网络模型中的推理速度都较PyTorc
量子位
2023-03-10
4290
用上Pytorch Lightning的这六招,深度学习pipeline提速10倍!
金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 面对数以亿计的图片数据,到底该用什么样的方法才能快速搞实验? 这样的问题,或许在做机器学习研究的你,也会经常遇到。 而就在最近,一个国外小哥就提出了一种建议: 在Pytorch lightning基础上,让深度学习pipeline速度提升10倍! 用他自己的话来说就是——“爬楼时像给了你一个电梯”。 这般“酸爽”,到底是如何做到的呢? 优化机器学习pipeline,很重要 无论你是身处学术界还是工业界,时间和资源等各种因素,往往会成为你在搞实验
量子位
2023-03-01
6170
首个“开源ChatGPT”来了:基于谷歌5400亿参数大模型,华人小哥出品,网友吐槽:这谁能跑?
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 就说程序员的手速有多快吧,首个开源ChatGPT项目已经出现了! 基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF),华人小哥Phillip Wang复刻了一个ChatGPT出来。 项目GitHub星已经超过1.7k了,而且还在一路飙升ing。 不过一反常态的是,网友们看到“开源ChatGPT”却没有火速开冲,反倒齐刷刷在发问: 这……有人能run? 开源了但没完全开? 项目的核心内容,是在PaLM架构上实现基于人类反馈
量子位
2023-02-28
5620
潞晨科技尤洋:中小企业同样追求大模型,但最先进AI训练成本还是太高 | MEET 2023
明敏 整理自 MEET2023 量子位 | 公众号 QbitAI AI模型急速增大与硬件算力缓慢增长的矛盾,已愈加尖锐。 尤其在AI落地进入深水区的背景下,如何降本增效成为了行业热点议题。 但具体到实际动作,该怎么做? 在MEET 2023智能未来大会现场,潞晨科技创始人、新加坡国立大学校长青年教授尤洋指明了一个方向: 未来,我们迫切需要一个可扩展性的高效计算基础设施。 而且,潞晨科技已经用实际行动给出论证,它们推出的Colossal-AI系统,在过去一年里迅速成长为开源加速方案中的明星项目,GitHub上
量子位
2023-02-28
5800
小破本也能炼GPT!300行代码搞定,GitHub获6k星,来自特斯拉前AI总监
詹士 发自 凹非寺 量子位 | 公众号 QbitAI 训练/微调中型GPT,最简单最快的库来了! 其名为:NanoGPT。 从名字就能看出是个“纳米武器”,据作者介绍,该库代码简单易读,2个仅300行代码的文件。 现已基于OpenWebText重现 GPT-2 (124M),在单个8XA100 40GB节点上,训练时间为38小时。 值得一提的是,该库发布者是前特斯拉AI总监,李飞飞高徒,Andrej Karpathy。此次发布的NanoGPT,正是他2年前MinGPT的升级版。 目前,此项目在GitHub
量子位
2023-02-28
5860
英伟达CUDA垄断地位难保:PyTorch不断拆塔,OpenAI已在偷家
詹士 Alex 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达的软件护城河正在逐渐消失。 随着PyTorch支持更多GPU厂商,再加上OpenAI的Triton搅局,英伟达手中的利器CUDA 逐渐锋芒不再。 上述观点来自Semi Analysis首席分析师Dylan Patel,相关文章已引发一波业内关注。 有网友看后评价: 英伟达沦落到此种境地,只因为了眼前利益,放弃创新。 Pytorch的作者之一Sasank Chilamkurthy还补刀: 当英伟达之前提出要收购Arm时,我就对潜在的垄断
量子位
2023-02-28
5050
PyTorch统治学术论文,TensorFlow只占4%,LeCun:还能为啥?
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI “对于Python而言,为什么TensorFlow正在慢慢死去?” 这篇观点尖锐的文章一出,就被LeCun的转发推向风口浪尖: 还能为啥,当然是因为PyTorch啊。 紧接着“PyTorch和TensorFlow谁更好?”这个经久不息的论战再次被掀起,网友们也纷纷开始从文章中找到共鸣、或予以反驳。 有TensorFlow深度使用者现身说法:现在我改用PyTorch了。 但也有尝试过好几种框架的网友表示:TensorFlow和Keras做快速实验更方便
量子位
2023-02-28
3280
AIGC落地门槛被打下来了:硬件预算一口气降至1/46,低成本上手Stable Diffusion2.0,一行代码自动并行
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 从AI画画到NLP大模型,AIGC的落地成本被一次性打下来了! 话不多说,直接看结果: Stable Diffusion 2.0训练/微调/推理,显存消耗最多可节省5.6倍,使硬件成本直降至1/46,一行代码即可启用; 1750亿参数大模型BLOOM单机推理,显存消耗节省4倍,硬件成本直降至十几分之一。 一行代码实现自动搜索最佳并行策略,显著降低分布式训练上手门槛,原生支持Hugging Face、Timm等热门AI模型库。 要知道,在AIGC爆火的另
量子位
2023-02-28
9180
ChatGPT低成本复现流程开源!任意单张消费级显卡可体验,显存需求低至1.62GB
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 首个开源的ChatGPT低成本复现流程来了! 预训练、奖励模型训练、强化学习训练,一次性打通。 最小demo训练流程仅需1.62GB显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。 相比原生PyTorch,单机训练速度最高可提升7.73倍,单卡推理速度提升1.42倍,仅需一行代码即可调用。 对于微调任务,可最多提升单卡的微调模型容量3.7倍,同时保持高速运行,同样仅需一行代码。 要知道,ChatGPT火是真的火,复现也是真的难。 毕
量子位
2023-02-23
9150
AI画画模型成本被打下来了!预训练成本直降85%,微调只需单张RTX 2070,这个国产开源项目又上新了
开源地址:https://github.com/hpcaitech/ColossalAI
量子位
2022-12-08
1.2K0
一块RTX3050搞定DLRM训练!仅需1%Embedding参数,硬件成本降低至十分之一 | 开源
深度推荐模型(DLRMs)已经成为深度学习在互联网公司应用的最重要技术场景,如视频推荐、购物搜索、广告推送等流量变现业务,极大改善了用户体验和业务商业价值。
量子位
2022-12-08
3910
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档