腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
DeepHub IMBA
不可错过的AI方向干货分享,赶紧关注吧 internet + machine learning +big data +architecture = IMBA
专栏作者
举报
1361
文章
1471265
阅读量
62
订阅数
订阅专栏
申请加入专栏
全部文章
神经网络
机器学习
深度学习
编程算法
人工智能
模型
python
数据
https
网络安全
pytorch
NLP 服务
函数
论文
性能
腾讯云测试服务
数据分析
开源
监督学习
测试
numpy
github
图像处理
scikit-learn
强化学习
线性回归
算法
LLM
api
git
可视化
游戏
决策树
内存
网络
优化
tensorflow
存储
tcp/ip
数据结构
对象
css
特征工程
学习方法
变量
sql
图像识别
keras
架构
框架
pandas
linux
基础
量化
文件存储
数据可视化
效率
数据库
卷积神经网络
工作
迁移学习
工具
连接
windows
jupyter notebook
self
代理
gpu
技巧
搜索
索引
系统
异常
bash
matlab
网站
缓存
机器人
kaggle
配置
图表
uml
数学
机器翻译
推荐系统
无监督学习
聚类算法
编码
设计
统计
javascript
批量计算
分布式
腾讯云开发者社区
torch
音频
字符串
LoRa
其他
c++
正则表达式
opencv
大数据
数据处理
image
prompt
教程
视频
自动驾驶
html
unix
SSL 证书
知识图谱
容器
data
model
size
部署
计算机视觉
排序
费用中心
打包
搜索引擎
http
无人驾驶
安全
gpt
import
nlp
表格
脚本
数据挖掘
node.js
容器镜像服务
文字识别
kernel
anaconda
云计算
alpha
knn
layer
max
openai
streamlit
解决方案
事件
压缩
.net
bootstrap
jquery
ajax
ide
apache
spring
serverless
自动化
spark
gui
分类算法
性能测试
图像标签
汽车
chatgpt
class
cuda
dataframe
gan
matplotlib
pca
plot
precision
predict
range
scale
state
svm
text
word
编程
编译
高性能
工作流
浏览器
路由
苹果
入门
数组
调试
通信
硬件
对象存储
语音识别
人脸识别
php
硬件开发
云数据库 SQL Server
oracle
access
日志服务
访问管理
语音合成
金融
医疗
express
hive
物联网
processing
虚拟化
模型测试
联邦学习
apple
classification
cpu
cut
dataset
datetime
distribution
google
jupyter
lag
ld
linkedin
list
lm
matrix
mean
meta
min
nan
set
time
token
ui
xgboost
笔记
管理
开发
数据科学
数据类型
异步
原理
终端
自然语言处理
图像分割
Midjourney
云服务器
云硬盘
官方文档
ios
mac os
iphone
xcode
java
c 语言
c#
go
erlang
scala
angularjs
react
xml
json
arm
嵌入式
flask
vba
ubuntu
bash 指令
apt-get
内容理解
数字营销
企业
渲染
electron
黑客
爬虫
面向对象编程
二叉树
单元测试
markdown
jenkins
微信
kafka
es
数据库管理
Elasticsearch Service
图像搜索
图像分析
absolute
actor
add
arima
att
audio
average
axes
bi
bit
blender
block
blur
chat
client
clone
code
copy
curve
cv2
dashboard
dask
date
dbpedia
detection
dimensions
distance
dynamic
edge
embed
entity
epoch
error
evaluation
excel
facebook
fastapi
fft
file
finance
fold
forecasting
function
gaussian
graph
h2
hook
identity
input
instagram
it
key
local
lstm
map
mask
median
merge
na
network
ocr
output
overflow
padding
partial
path
percentage
pipeline
plotly
point
prefix
rdf
recurrence
reset
salesforce
sample
sampling
scaling
scheduler
seaborn
series
sh
show
smoothing
spatial
split
stack
stock
styles
subplot
system
table
target
tensor
transform
translate
transpose
var
vector
video
watch
web
width
window
word2vec
yahoo
youtube
备份
编程语言
布局
递归
地图
动画
二进制
反射
翻译
服务
规范化
互联网
集群
计算机
接口
开源项目介绍
快捷键
量子计算
漏洞
面试
内核
日志
事务
数据存储
图数据库
线程
异常处理
隐私
语法
域名
语音
装饰器
数据建模
深度学习框架
向量数据库
标签
搜索文章
搜索
搜索
关闭
PyTorch小技巧:使用Hook可视化网络层激活(各层输出)
技巧
可视化
模型
pytorch
hook
这篇文章将演示如何可视化PyTorch激活层。可视化激活,即模型内各层的输出,对于理解深度神经网络如何处理视觉信息至关重要,这有助于诊断模型行为并激发改进。
deephub
2024-04-17
127
0
ORPO偏好优化:性能和DPO一样好并且更简单的对齐方法
模型
数据
性能
优化
论文
现在有许多方法可以使大型语言模型(LLM)与人类偏好保持一致。以人类反馈为基础的强化学习(RLHF)是最早的方法之一,并促成了ChatGPT的诞生,但RLHF的成本非常高。与RLHF相比,DPO、IPO和KTO的成本明显更低,因为它们不需要奖励模型。
deephub
2024-04-16
197
0
时空图神经网络ST-GNN的概念以及Pytorch实现
模型
数据
神经网络
pytorch
self
在我们周围的各个领域,从分子结构到社交网络,再到城市设计结构,到处都有相互关联的图数据。图神经网络(GNN)作为一种强大的方法,正在用于建模和学习这类数据的空间和图结构。它已经被应用于蛋白质结构和其他分子应用,例如药物发现,以及模拟系统,如社交网络。标准的GNN可以结合来自其他机器学习模型的想法,比如将GNN与序列模型结合——时空图神经网络(Spatail-Temporal Graph),能够捕捉数据的时间和空间依赖性。
deephub
2024-04-15
137
0
ReFT(表征微调):比PeFT效果更好的新的大语言模型微调技术
性能
编码
论文
模型
效率
ReFT(Representation Finetuning)是一种突破性的方法,有望重新定义我们对大型语言模型进行微调的方式。
deephub
2024-04-15
190
0
Moirai:Salesforce的时间序列预测基础模型
基础
模型
数据
salesforce
变量
在过去的几个月中,时间序列基础模型的发展速度一直在加快,每个月都能看到新模型的发布。从TimeGPT 开始,我们看到了 Lag-Llama 的发布,Google 发布了 TimesFM,Amazon 发布了 Chronos,Salesforce 发布了 Moirai。TimesFM是信息最多的模型,而Lag-Llama、Chronos我们都做过详细的介绍。今天我们来详细介绍一下Moirai,这里可能最不知名(相对)就是Salesforce了,所以基本没有介绍 Moirai的文章,我们就来补足这个信息。
deephub
2024-04-15
135
0
PiSSA :将模型原始权重进行奇异值分解的一种新的微调方法
性能
部署
论文
模型
数据
我们开始看4月的新论文了,这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation(PiSSA)方法。
deephub
2024-04-15
109
0
10个大型语言模型(LLM)常见面试问题和答案解析
存储
面试
模型
数据
LLM
提示校准包括调整提示,尽量减少产生的输出中的偏差。微调修改模型本身,而数据增强扩展训练数据。梯度裁剪防止在训练期间爆炸梯度。
deephub
2024-04-15
93
0
5种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现
LLM
pytorch
input
模型
数据
本文将介绍大语言模型中使用的不同令牌遮蔽技术,并比较它们的优点,以及使用Pytorch实现以了解它们的底层工作原理。
deephub
2024-04-15
107
0
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
模型
网络
效率
函数
论文
如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。
deephub
2024-04-15
201
0
归一化技术比较研究:Batch Norm, Layer Norm, Group Norm
数据
性能
layer
规范化
模型
归一化层是深度神经网络体系结构中的关键,在训练过程中确保各层的输入分布一致,这对于高效和稳定的学习至关重要。归一化技术的选择(Batch, Layer, GroupNormalization)会显著影响训练动态和最终的模型性能。每种技术的相对优势并不总是明确的,随着网络体系结构、批处理大小和特定任务的不同而变化。
deephub
2024-04-15
34
0
推测解码:在不降低准确性的情况下将LLM推理速度提高2 - 3倍
工作
论文
模型
算法
LLM
在本篇文章我们将详细讨论推测解码,这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现,并看看它与原始transformer 实现相比到底能快多少。
deephub
2024-04-15
145
0
FaaF:为RAG系统量身定制的事实召回评估框架
效率
基础
框架
模型
系统
在低质量生成的文本中自动验证真实的、独立的陈述和模拟低质量的检索增强生成(RAG)场景并没有得到太多的关注。
deephub
2024-04-15
99
0
Vision-RWKV:基于RWKV架构的高效可扩展视觉感知模型
数据
效率
性能
架构
模型
Vision-RWKV 是从 RWKV 改进而来的视觉模型,可以处理稀疏输入并高效执行健壮的全局处理。它能够很好地扩展到大型参数和数据集,优于其降低了空间聚合复杂性使得在高分辨率图像处理时无需窗口操作。在图像分类方面,VRWKV 在性能上优于 ViT,表现出更快的速度和更低的内存使用量,尤其是对于高分辨率输入。在密集预测任务中,它超越了基于窗口的模型,同时保持可比较的速度,因此在视觉感知任务中是一种更高效的替代方案。
deephub
2024-04-15
213
0
LUMOS:基于开源LLM的可训练的代理框架
框架
LLM
开源
代理
工具
基于LLM的agent可以利用LLM对问题进行推理,制定解决问题的计划,然后利用各种工具执行复杂的任务。LUMOS是一种通过统一、模块化和开源的、可训练的代理框架,包含一个学习高级子目标生成的规划模块,和一个经过训练的使用执行模块中的各种工具将这些子目标转换为动作的基础模块。
deephub
2024-04-15
100
0
大模型中常用的注意力机制GQA详解以及Pytorch代码实现
论文
模型
性能
pytorch
工作
分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。
deephub
2024-04-03
225
0
大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?
模型
缓存
编码
架构
论文
自 2017 年发表“ Attention Is All You Need ”论文以来,Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化,随着旋转位置编码 (RoPE) 的引入,2022年标志着该领域的重大发展。
deephub
2024-04-01
370
0
SiMBA:基于Mamba的跨图像和多元时间序列的预测模型
网络
性能
论文
模型
数据
这是3月26日新发的的论文,微软的研究人员简化的基于mamba的体系结构,并且将其同时应用在图像和时间序列中并且取得了良好的成绩。
deephub
2024-04-01
223
0
Quiet-STaR:让语言模型在“说话”前思考
LLM
论文
模型
算法
性能
大型语言模型(llm)已经变得越来越复杂,能够根据各种提示和问题生成人类质量的文本。但是他们的推理能力让仍然是个问题,与人类不同LLM经常在推理中涉及的隐含步骤中挣扎,这回导致输出可能在事实上不正确或缺乏逻辑。
deephub
2024-04-01
101
0
使用MergeKit创建自己的专家混合模型:将多个模型组合成单个MoE
配置
测试
架构
模型
内存
由于Mixtral的发布,专家混合(MoE)架构在最近几个月变得流行起来。虽然Mixtral和其他MoE架构是从头开始预训练的,但最近出现了另一种创建MoE的方法:Arcee的MergeKit库可以通过集成几个预训练模型来创建moe。这些人通常被称为frankenMoEs或MoErges,以区别于预先训练的MoEs。
deephub
2024-04-01
128
0
如何开始定制你自己的大型语言模型
开发
模型
数据
性能
高性能
2023年的大型语言模型领域经历了许多快速的发展和创新,发展出了更大的模型规模并且获得了更好的性能,那么我们普通用户是否可以定制我们需要的大型语言模型呢?
deephub
2024-04-01
92
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档