首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#scaling

什么是Dennard scaling?

AsicWonder

Dennard Scaling(登纳德缩放定律)是1974年由Robert Dennard提出的,它与摩尔定律共同指导了集成电路行业多年。Dennard Sca...

2310

Scaling Laws又失灵了?谷歌新研究:扩散模型不是越大越好

大数据文摘

OpenAI是scaling laws的坚定拥护者。可是模型训练是否真的大力出奇迹呢?

20510

GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式

机器之心

新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了!使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大...

11810

Scaling Law 又一次性感了吗?

机器之心

自 OpenAI 发布 Sora,业界对该模型的能力及其所带来的影响和机会讨论不断。虽然 OpenAI 没有放出 Sora 的训练细节,但在其技术报告中又一次强...

12710

告别微软,姜大昕带领这支精英团队攀登Scaling Law,万亿参数模型已有预览版

机器之心

前段时间,OpenAI 科学家 Jason Wei 的一份作息时间表引发了广泛关注。表中有很多让人看了会心一笑的梗,比如「9 点 45:背诵 OpenAI 章程...

16310

Meta | Wukong:推荐系统中的Scaling Law探索

秋枫学习笔记

Scaling laws在nlp,cv领域的模型改进方面起着重要作用,但是目前推荐模型并没有表现出类似于在大型语言模型领域观察到的规律,本文在模型本身结构上做出...

26710

大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

机器之心

大模型的成功很大程度上要归因于 Scaling Law 的存在,这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系,为模型开发、资源分配和选择合...

17510

Scaling Up to Excellence: 恢复逼真的图像

用户1324186

上海交通大学 · 研究员 (已认证)

随着图像修复(IR)的发展,人们对 IR 结果的感知效果的期望显著提高。基于生成先验的 IR 方法,利用强大的预训练生成模型将高质量的生成和先验知识引入 IR ...

32210

全志平台方案CPU频率切频稳定性测试

阿志小管家

最近用全志的方案做CPU频率切频稳定性测试,就是不停地切换频率,测试CPU跑在每个频率上时候的稳定性,测试的设计思路如下:(以R331为例)

11610

阅读笔记 | AuTO: scaling deep reinforcement learning for datacenter-scale automatic traffic optimization

Ranlychan

info: Chen L , Lingys J , Chen K ,et al.AuTO: scaling deep reinforcement learnin...

18210

KDD'23 Tutorial: 大规模 GNN 的过去和未来

Houye

(b) Scalability Challenges of Large-Scale GNNs

15330

【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways

致Great

PaLM 在decoder-only架构中使用标准的 Transformer 模型架构(即每个时间步只能关注其自身和过去的时间步),并进行以下修改: (1)采...

41820

【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models

致Great

本文分析了使用“指令数据”对语言模型进行微调所带来的改进,涉及缩放 :1)增加微调任务,2) 增大模型大小,以及 (3) 添加思维链数据。Google 研究人员...

32120

babylon.js 学习笔记(3)

菩提树下的杨过

携程 · 软件技术专家 (已认证)

在线地址:https://yjmyzz.github.io/babylon_js_study/day03/01.html

52220

这波可以,终于有内行人把 GPT-4 说透了。

腾讯云开发者

👉腾小云导读 近三个月 ChatGPT 方兴未艾,昨日凌晨 OpenAI 趁势发布多模态预训练大模型 GPT-4 ,其能力的升级和应用的拓展又一次引爆国内外网络...

5.1K250

Ubuntu Fedora CentOS等Linux系统不能上网只能上百度的解决办法

zhaoJian.Net

典型TCP数据包有一个最大窗口大小为64KB的窗口域。这在因特网发展初期,大部分系统都没有能力处理比这更大的数据,因此这个大小是足够的,但是对于现在的接入带宽应...

78120

让时间序列预测结果更真实的损失函数

圆圆的算法笔记

时间序列预测中,我们经常使用的损失函数包括MSE、MAE等。这些损失函数的目标是预测结果和真实值每个点的差距最小。然而这样的点误差损失函数真的适用于所有时间序列...

1.9K10

一个简单但是能上分的特征标准化方法

deephub

一般情况下我们在做数据预处理时都是使用StandardScaler来特征的标准化,如果你的数据中包含异常值,那么效果可能不好。

31910

AAAI'22「腾讯」多任务推荐系统中的跨任务知识蒸馏

秋枫学习笔记

多任务学习被广泛应用于推荐系统,先前的工作专注于设计底部层的结构来共享输入数据的信息,但是由于它们采用特定任务的二分类标签作为训练的监督信号,因此关于如何准确排...

39730

一个简单但是能上分的特征标准化方法

数据派THU

来源:DeepHub IMBA本文约1100字,建议阅读5分钟本文介绍的方法叫Robust Scaling,正如它的名字一样能够获得更健壮的特征缩放结果。 一般...

29310
领券