腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

量子位

专栏作者

8591

文章

4918889

阅读量

138

订阅数

PyTorch造大模型“加速包”，不到1000行代码提速10倍！英伟达科学家：minGPT以来最好的教程式repo之一

pytorch 教程开发量化模型

开发团队一开始使用简单的PyTorch来实现，但效果不佳（25.5 tok/s）：

2023-12-05

2450

Keras 3.0正式发布！一统TF/PyTorch/Jax三大后端框架，网友：改变游戏规则

keras pytorch 后端框架模型

不仅支持TensorFlow、PyTorch、Jax三大框架作为后端，还能在它们之间无缝切换，甚至混合使用。

2023-11-30

2160

PyTorch官方认可！斯坦福博士新作：长上下文LLM推理速度提8倍

pytorch 工作模型内存 LLM

该方法尤其造福于长上下文LLM，在64k长度的CodeLlama-34B上通过了验证。

2023-10-18

2580

雷军入局ChatGPT大战/ AutoGPT星标超PyTorch/ 马斯克星舰今晚发射…今日更多新鲜事在此

pytorch chatgpt 产品模型语音

h日报君发自凹非寺量子位 | 公众号 QbitAI 大家好，今天是4月17日星期一，新的一周要元气满满哦~ 今天科技圈有哪些新鲜事儿，和日报君一起来看看~ 马斯克星舰今晚发射：将进行直播，此前曾延期 SpaceX官网发布通告称，其所研发的星舰（Starship）将于美国中部时间17日7时（北京时间20时）在德克萨斯州星际基地发射。据SpaceX介绍，星舰是一种全身可重复使用的客货两用型航天器，未来将帮助人类“重返月球”、前往火星甚至更远的地方。此前，SpaceX团队已经完成了多次亚轨道飞行测试

2023-05-06

1650

特斯拉AI总监用300行代码实现“迷你版GPT”，上线GitHub三天收获3.3k星

github pytorch https git

晓查发自凹非寺量子位报道 | 公众号 QbitAI “GPT并不是一个复杂的模型。” 前OpenAI科学家、现任特斯拉AI总监的Andrej Karpathy在自己的GitHub项目里这样写道。 Karpathy这样说是有底气的，因为他自己只用大约300行PyTorch代码就实现了一个“小型GPT”——minGPT。该项目上线3天以来，已经收获了3.3k星。 “万能”的NLP模型GPT-3这一个月来已经刷爆社交网络，不过1750亿个参数对算力的超高要求也让人望而却步。但是在Karpathy看来

2023-03-10

3760

如何用PyTorch进行语义分割？一个教程教会你｜资源

pytorch 批量计算

木易发自凹非寺量子位报道 | 公众号 QbitAI 很久没给大家带来教程资源啦。正值PyTorch 1.7更新，那么我们这次便给大家带来一个PyTorch简单实用的教程资源：用PyTorch进行语义分割。 △图源：stanford 该教程是基于2020年ECCV Vipriors Chalange Start Code实现了语义分割，并且添加了一些技巧。友情提示：教程中的所有文件均可以在文末的开源地址获取。预设置在开始训练之前，得首先设置一下库、数据集等。库准备 pip install

2023-03-10

3000

PyTorch 1.7发布：支持CUDA 11、Windows分布式训练

rpc 分布式 api pytorch 语音识别

木易发自凹非寺量子位报道 | 公众号 QbitAI 自从7月份CUDA 11发布以来，就陆陆续续听到了网友类似的吐槽：这正说着，10月27日，PyTorch团队发布了PyTorch 1.7，终于能支持CUDA 11了，可喜可贺（狗头）。除此之外，这次1.7的版本，也带来了许多功能的更新和稳定。在更新上，有了许多新的应用编程接口，如支持与NumPy兼容的快速傅立叶变换的操作及性能分析工具。此外，分布式数据并行（DDP）和基于远程过程调用（RPC）的分布式训练也有了重大的更新，在Window

2023-03-10

6440

机器学习也能套模版：在线选择模型和参数，一键生成demo

github git 开源网站 pytorch

木易发自凹非寺量子位报道 | 公众号 QbitAI 连机器学习的代码，也可以套模（tou）版（lan）了。现在，有一个Web应用程序，可以生成用于机器学习的模板代码（demo），目前支持PyTorch和scikit-learn。同时，对于初学者来说，这也是一个非常好的工具。在模版中学习机器学习的代码，可以少走一些弯路。这也难怪开发者在项目的介绍中，这样写道：这非常适合机器学习的初学者！这个名为traingenerator的项目，已于最近成功上线，并冲上了reddit的热榜。这，究竟是

2023-03-10

1.2K0

PyTorch 1.9发布！移动端疯狂更新，网友：我的最爱

pytorch 分布式 api android ios

明敏发自凹非寺量子位报道 | 公众号 QbitAI 时隔仅3个月，PyTorch再次迎来升级——1.9版本。这一次，官方把重头戏放在了移动端上。不仅Mobile Interpreter发布了新版本，而且TorchVision库也支持在手机上使用了，iOS、Android都支持！网友看了都表示：这一次更新中，我对移动端最感兴趣。而此次1.9版本集合了自2021年3月1.8版本发布以来，超过3400次GitHub提交。除了移动设备端方面，还有其他诸多亮点：前端API改进（包括torc

2023-03-10

3940

清华「计图」现在支持国产芯片了！动态图推理比PyTorch快了270倍

开源 ide 打包硬件开发 pytorch

明敏发自凹非寺量子位报道 | 公众号 QbitAI 清华自研的深度学习框架计图（Jittor）在动态图推理速度上又一次完胜PyTorch。最近，计图团队完成了在寒武纪芯片MLU270上的移植。这一次跟寒武纪的合作，使Jittor在backbone网络模型中的动态图推理速度较PyTorch平均提升了276.69倍。从团队公布的实验结果可以看到，在寒武纪芯片上分别用计图（Jittor）和PyTorch进行推理。计图（Jittor）在16种backbone网络模型中的推理速度都较PyTorc

2023-03-10

4290

用上Pytorch Lightning的这六招，深度学习pipeline提速10倍！

pytorch 机器学习深度学习神经网络人工智能

金磊发自凹非寺量子位报道 | 公众号 QbitAI 面对数以亿计的图片数据，到底该用什么样的方法才能快速搞实验？这样的问题，或许在做机器学习研究的你，也会经常遇到。而就在最近，一个国外小哥就提出了一种建议：在Pytorch lightning基础上，让深度学习pipeline速度提升10倍！用他自己的话来说就是——“爬楼时像给了你一个电梯”。这般“酸爽”，到底是如何做到的呢？优化机器学习pipeline，很重要无论你是身处学术界还是工业界，时间和资源等各种因素，往往会成为你在搞实验

2023-03-01

6170

首个“开源ChatGPT”来了：基于谷歌5400亿参数大模型，华人小哥出品，网友吐槽：这谁能跑？

https 网络安全强化学习开源 pytorch

明敏发自凹非寺量子位 | 公众号 QbitAI 就说程序员的手速有多快吧，首个开源ChatGPT项目已经出现了！基于谷歌语言大模型PaLM架构，以及使用从人类反馈中强化学习的方法（RLHF），华人小哥Phillip Wang复刻了一个ChatGPT出来。项目GitHub星已经超过1.7k了，而且还在一路飙升ing。不过一反常态的是，网友们看到“开源ChatGPT”却没有火速开冲，反倒齐刷刷在发问：这……有人能run？开源了但没完全开？项目的核心内容，是在PaLM架构上实现基于人类反馈

2023-02-28

5620

潞晨科技尤洋：中小企业同样追求大模型，但最先进AI训练成本还是太高 | MEET 2023

明敏整理自 MEET2023 量子位 | 公众号 QbitAI AI模型急速增大与硬件算力缓慢增长的矛盾，已愈加尖锐。尤其在AI落地进入深水区的背景下，如何降本增效成为了行业热点议题。但具体到实际动作，该怎么做？在MEET 2023智能未来大会现场，潞晨科技创始人、新加坡国立大学校长青年教授尤洋指明了一个方向：未来，我们迫切需要一个可扩展性的高效计算基础设施。而且，潞晨科技已经用实际行动给出论证，它们推出的Colossal-AI系统，在过去一年里迅速成长为开源加速方案中的明星项目，GitHub上

2023-02-28

5800

小破本也能炼GPT！300行代码搞定，GitHub获6k星，来自特斯拉前AI总监

詹士发自凹非寺量子位 | 公众号 QbitAI 训练/微调中型GPT，最简单最快的库来了！其名为：NanoGPT。从名字就能看出是个“纳米武器”，据作者介绍，该库代码简单易读，2个仅300行代码的文件。现已基于OpenWebText重现 GPT-2 (124M)，在单个8XA100 40GB节点上，训练时间为38小时。值得一提的是，该库发布者是前特斯拉AI总监，李飞飞高徒，Andrej Karpathy。此次发布的NanoGPT，正是他2年前MinGPT的升级版。目前，此项目在GitHub

2023-02-28

5860

英伟达CUDA垄断地位难保：PyTorch不断拆塔，OpenAI已在偷家

深度学习 pytorch tensorflow https 网络安全

詹士 Alex 发自凹非寺量子位 | 公众号 QbitAI 英伟达的软件护城河正在逐渐消失。随着PyTorch支持更多GPU厂商，再加上OpenAI的Triton搅局，英伟达手中的利器CUDA 逐渐锋芒不再。上述观点来自Semi Analysis首席分析师Dylan Patel，相关文章已引发一波业内关注。有网友看后评价：英伟达沦落到此种境地，只因为了眼前利益，放弃创新。 Pytorch的作者之一Sasank Chilamkurthy还补刀：当英伟达之前提出要收购Arm时，我就对潜在的垄断

2023-02-28

5050

PyTorch统治学术论文，TensorFlow只占4%，LeCun：还能为啥？

pytorch tensorflow python keras

萧箫发自凹非寺量子位 | 公众号 QbitAI “对于Python而言，为什么TensorFlow正在慢慢死去？” 这篇观点尖锐的文章一出，就被LeCun的转发推向风口浪尖：还能为啥，当然是因为PyTorch啊。紧接着“PyTorch和TensorFlow谁更好？”这个经久不息的论战再次被掀起，网友们也纷纷开始从文章中找到共鸣、或予以反驳。有TensorFlow深度使用者现身说法：现在我改用PyTorch了。但也有尝试过好几种框架的网友表示：TensorFlow和Keras做快速实验更方便

2023-02-28

3280

AIGC落地门槛被打下来了：硬件预算一口气降至1/46，低成本上手Stable Diffusion2.0，一行代码自动并行

分布式 pytorch flash 开源

明敏发自凹非寺量子位 | 公众号 QbitAI 从AI画画到NLP大模型，AIGC的落地成本被一次性打下来了！话不多说，直接看结果： Stable Diffusion 2.0训练/微调/推理，显存消耗最多可节省5.6倍，使硬件成本直降至1/46，一行代码即可启用； 1750亿参数大模型BLOOM单机推理，显存消耗节省4倍，硬件成本直降至十几分之一。一行代码实现自动搜索最佳并行策略，显著降低分布式训练上手门槛，原生支持Hugging Face、Timm等热门AI模型库。要知道，在AIGC爆火的另

2023-02-28

9180

ChatGPT低成本复现流程开源！任意单张消费级显卡可体验，显存需求低至1.62GB

NLP 服务开源 pytorch

明敏发自凹非寺量子位 | 公众号 QbitAI 首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需1.62GB显存，随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch，单机训练速度最高可提升7.73倍，单卡推理速度提升1.42倍，仅需一行代码即可调用。对于微调任务，可最多提升单卡的微调模型容量3.7倍，同时保持高速运行，同样仅需一行代码。要知道，ChatGPT火是真的火，复现也是真的难。毕

2023-02-23

9150

AI画画模型成本被打下来了！预训练成本直降85%，微调只需单张RTX 2070，这个国产开源项目又上新了

开源 https pytorch 网络安全 flash

开源地址：https://github.com/hpcaitech/ColossalAI

2022-12-08

1.2K0

一块RTX3050搞定DLRM训练！仅需1%Embedding参数，硬件成本降低至十分之一 | 开源

批量计算深度学习 pytorch 缓存

深度推荐模型（DLRMs）已经成为深度学习在互联网公司应用的最重要技术场景，如视频推荐、购物搜索、广告推送等流量变现业务，极大改善了用户体验和业务商业价值。

2022-12-08

3910

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态