腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
自然语言处理(NLP)论文速递
专栏成员
举报
335
文章
311897
阅读量
60
订阅数
订阅专栏
申请加入专栏
全部文章(335)
模型(185)
数据(108)
性能(79)
NLP 服务(67)
神经网络(44)
编程算法(39)
https(34)
人工智能(33)
网络安全(33)
深度学习(32)
LLM(31)
架构(30)
论文(29)
机器学习(28)
开源(25)
框架(24)
gpt(23)
系统(22)
测试(20)
内存(15)
优化(15)
算法(14)
机器翻译(13)
google(13)
github(12)
数学(12)
机器人(11)
python(10)
git(10)
工具(10)
效率(10)
meta(9)
工作(9)
设计(9)
网络(9)
prompt(8)
基础(8)
解决方案(8)
LoRa(8)
agent(7)
视频(7)
腾讯云测试服务(6)
监督学习(6)
pytorch(6)
安全(6)
迁移(6)
教育(6)
openai(6)
token(6)
函数(6)
排序(6)
html(5)
腾讯云开发者社区(5)
学习方法(5)
chatgpt(5)
部署(5)
华为(5)
存储(4)
强化学习(4)
tcp/ip(4)
编码(4)
代理(4)
技巧(4)
量化(4)
内核(4)
音频(4)
源码(4)
自然语言处理(4)
知识图谱(3)
网站(3)
金融(3)
医疗(3)
企业(3)
http(3)
推荐系统(3)
迁移学习(3)
智能客服机器人(3)
self(3)
程序(3)
翻译(3)
服务(3)
管理(3)
开发(3)
配置(3)
自动驾驶(2)
数据挖掘(2)
c++(2)
数据库(2)
游戏(2)
分布式(2)
自动化(2)
缓存(2)
大数据(2)
bit(2)
lstm(2)
nlp(2)
sequence(2)
ssm(2)
word2vec(2)
表格(2)
布局(2)
产品(2)
服务器(2)
计算机科学(2)
进程(2)
连接(2)
苹果(2)
搜索(2)
硬件(2)
语音(2)
主机(2)
字符串(2)
最佳实践(2)
区块链(1)
数字货币(1)
java(1)
javascript(1)
css(1)
jquery(1)
oracle(1)
ide(1)
搜索引擎(1)
linux(1)
文件存储(1)
NAT 网关(1)
海外加速(1)
语音合成(1)
图像处理(1)
容器(1)
无人驾驶(1)
卷积神经网络(1)
正则表达式(1)
面向对象编程(1)
二叉树(1)
单元测试(1)
微信(1)
windows(1)
架构设计(1)
nat(1)
raft(1)
联邦学习(1)
汽车(1)
amazon(1)
auto(1)
aws(1)
bi(1)
cas(1)
chat(1)
code(1)
embedding(1)
gpu(1)
image(1)
io(1)
ipc(1)
key(1)
layer(1)
less(1)
math(1)
matrix(1)
modulo(1)
ode(1)
patch(1)
twitter(1)
vector(1)
wiki(1)
wikipedia(1)
博客(1)
操作系统(1)
登录(1)
递归(1)
对象(1)
高性能(1)
教程(1)
科技(1)
浏览器(1)
路由(1)
前端(1)
生命周期(1)
事件(1)
手机(1)
树形结构(1)
腾讯(1)
调试(1)
同步(1)
统计(1)
通信(1)
芯片(1)
压缩(1)
异常(1)
移动端(1)
隐私(1)
语法(1)
原型(1)
终端(1)
搜索文章
搜索
搜索
关闭
Meta| 提出上下文位置编码:CoPE,解决当前模型「普遍存在的问题」,含GPT-4o!
gpt
meta
编码
模型
性能
Attention机制是大模型的核心组件,但该机制并不包含顺序信息,需要进行位置编码。当前位置编码(PE)主要是通过Token计数来定位,这限制了其泛化能力。例如无法针对特定的句子、名词进行定位。以下是在Kimi上测试结果,明显统计错误!
ShuYini
2024-05-31
382
0
恐怖如斯!GSU | 提出VB-LoRA,仅需LoRA参数的0.4%,就超越了LoRA微调效果
存储
基础
模型
性能
LoRa
随着大模型应用的不断推广,面对不同应用场景模型的定制化需求也不断增涨。但参数高效微调 (PEFT) 方法,比如LoRA及其变体会产生大量的参数存储和传输成本。为此,本文提出了一种超级参数高效微调方法:VB-LoRA,该方法采用“分而共享(divide-and-share)”范式,通过向量库进行全局参数共享,在保证模型性能的同时,实现了极高的参数效率。在对 Llama2-13B 模型进行微调时,VB-LoRA 仅使用了 LoRA 存储参数的 0.4%就超过了LoRA微调效果,可见实力强悍。
ShuYini
2024-05-30
113
0
哈工大 | 提出共享Attention框架:SAPT,提升LLM持续学习性能
模型
性能
LLM
迁移
框架
在大模型实际部署落地的过程中,如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战,分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时,会忘记其已掌握的旧任务。知识迁移则涉及到如何在学习新任务时有效地应用旧任务的知识来提升新任务学习的效果。【作者主页:https://circle-hit.github.io】
ShuYini
2024-05-30
105
0
牛叉!UConn | 提出代码生成大模型:AutoCoder,性能超越GPT-4o!
数据
性能
开源
gpt
模型
大模型训练需要高质量数据集,这对于代码生成任务来说尤其重要。为此本文提出了一种新型大规模代码指令数据集标注方法:AIEV-INSTRUCT,得到了一个高质量代码指令数据集:AutoCoder-AIEV-Instruct,基于该数据集,作者训练了代码生成大模型:AutoCoder,该模型在HE基准测试集上的pass@1指标超过了GPT-4 Turbo和GPT-4o,并且还提供了一个可自动安装外部依赖包的代码解释器。
ShuYini
2024-05-29
218
0
开源金融领域AI Agent平台:FinRobot,利用多源LLMs进行高级金融分析、市场预测
金融
开源
agent
模型
算法
在当今快速发展的金融领域,数据分析和决策制定的重要性日益凸显。随着人工智能技术的不断进步,尤其是大模型(LLMs)的出现,金融专业人士和普通用户都面临着一个共同的挑战:如何有效地利用这些先进的技术来提高分析的准确性和决策的质量。
ShuYini
2024-05-28
226
0
细数:大模型评估基准的「七宗罪」
测试
工具
论文
模型
性能
在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。
ShuYini
2024-05-28
139
0
麻省理工(MIT) | 提出跨层Attention,减少Transformer大模型键值(KV)缓存,加快LLM推理!
内存
LLM
缓存
架构
模型
键值 (KV) 缓存能够显著提升Transformer大模型的解码速度。但是当面对长序列的时候,键值 (KV) 缓存需要大量的内存资源。当前减少键值 (KV) 缓存的两个主要方法分别为:Multi-Query Attention(MQA)和Grouped-Query Attention (GQA)。这两种方法主要是修改了Attention块,使得多头请求头共享单个KV头,从而大大减少了不同KV的数量。
ShuYini
2024-05-28
142
0
RU | 提出手语生成大模型:SignLLM,支持8种手语生成,且均达到SOTA!
工具
模型
视频
数据
性能
手语对于听障人士的交流至关重要。然而,手语数据的获取和处理非常复杂,这限制了手语生成模型的发展。为推动手语生成领域的发展,本文作者提出了一个多语种手语数据集Prompt2Sign,并以此训练了手语生成大模型:SignLLM,该模型可并行生成多种手语,同时理解复杂自然语言输入。实验结果表明,SignLLM在8种手语的SLP任务上达到了最先进的性能,展示了其在多语种手语生成上的强大实力。
ShuYini
2024-05-28
279
0
学的少,忘的少!UC | LoRA最新研究:总结LoRA最佳实践,实现LLMs高效微调!
LoRa
模型
数据
数学
最佳实践
本文深入探讨了当前主流大模型高效微调方法——低秩适应(LoRA)。在代码编程、数学推理两个领域,对比了LoRA和全微调在不同数据规模下的性能。结果表明:LoRA在大多数情况下性能不如全微调,但作为一种正则化手段,LoRA能够保证在源领域上的性能(遗忘问题),并减少对新任务的学习成本。最后作者还给出了使用LoRA的最佳实践,来方便大家更有效地利用LoRA进行大模型微调。
ShuYini
2024-05-28
83
0
全面开源,免费商用!腾讯| 发布混元文生图大模型,采用业内首个中文原生DiT架构!
算法
腾讯
开源
架构
模型
5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
ShuYini
2024-05-17
647
0
剑桥 | 提出Hypernetwork,解耦LLMs分词器(Tokenizer),提高LLMs跨语言处理性能!
迁移
模型
网络
性能
字符串
大模型(LLM)主要依赖于分词器(Tokenizer )将文本转换为Tokens,目前主流开源大模型基本上都是基于英文数据集训练得到的,然而,此类模型当处理其它语言时效率会降低。为此,为了能够将原始 LM 分词器替换为任意分词器,而不会降低性能,本文作者定义了一个新挑战:零样本分词器迁移(ZeTT,Zero-Shot Tokenizer Transfer),训练了一个适配各种模型的超网络(Hypernetwork),解耦LLM分词器(Tokenizer),增强LLM跨语言处理性,实验表明:在跨语言和编码任务上可媲美原始模型。
ShuYini
2024-05-17
175
0
数据污染迫在眉睫!GSM8k测试基准 将不再可靠,Mistral、Phi等系列模型出现过拟合!
测试
模型
数据
数学
性能
大模型数学推理评测基本上都绕不开GSM8k测试基准,当前很多大模型在该数据集上都展现出较强的性能。然而,本文作者怀疑此类模型在训练过程种可能包含了与测试题目相似的问题,而不是模型真正具备推理能力。
ShuYini
2024-05-17
125
0
斯坦福 | 开源全新AI加速框架:百行代码,让H100提速30%!
硬件
开源
框架
内存
内核
AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需求,并提高现有 AI 计算效率。
ShuYini
2024-05-17
82
0
下周!OpenAI将有大动作,奥特曼剧透:Not GPT-5,Not 搜索引擎
openai
苹果
音频
搜索引擎
gpt
OpenAI 有了新动向!今日凌晨 OpenAI 官宣,将于美国时间 13 日上午 10 点进行一场直播。Sam Altman 随即转发这一消息,并表示「不是 gpt-5,不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!我感觉这就像魔法一样。」
ShuYini
2024-05-17
67
0
ByteDance| 将MoE 整合至多模态LLMs,降低了推理成本,多模态性能达到SOTA!
模型
数据
性能
优化
基础
目前多模态LLMs主要通过增加文图对( text-image)数据和增强LLMs来提升性能,然而,此类方法计算成本较高,同时忽略了从视觉方面提升模型能力的重要性。
ShuYini
2024-05-11
125
0
上交| 提出一致性大模型:CLLMs,提升3倍生成速度,降低内存成本!
内存
数据
效率
token
模型
来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器,并介绍了一种新的并行解码器族,称为一致性大语言模型(CLLMs),能够通过在每个推断步骤中高效地解码一个n -token序列来降低推断延迟。
ShuYini
2024-05-11
192
0
ICLR 2024| 用巧妙的「传送」技巧,让神经网络的训练更加高效
技巧
模型
算法
优化
神经网络
众多神经网络模型中都会有一个有趣的现象:不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释,即某些参数的变换不会影响损失函数的结果。基于这一发现,传送算法(teleportation)被设计出来,它利用这些对称变换来加速寻找最优参数的过程。尽管传送算法在实践中表现出了加速优化的潜力,但其背后的确切机制尚不清楚。
ShuYini
2024-05-10
69
0
中山&港大| 提出DQ-LoRe框架,自动选择上下文示例,为LLMs复杂推理开辟新道路!
数据
测试
框架
模型
排序
大模型(LLMs)在上下文学习方面展现出了卓越的能力。为了提高LLMs在复杂推理任务中的表现,人们提出思维链”(Chain-of-Thought,CoT)的方法,利用中间推理步骤来辅助模型生成。那么,如何有效地选择优秀示例来提升LLMs上下文学习能力呢?
ShuYini
2024-05-10
159
0
LSTM依然能打!最新xLSTM架构:怒超先进Transformer和状态空间模型(SSM)
模型
网络
lstm
ssm
架构
LSTM( Long Short-Term Memory)最早源于20世纪90年代,为人工智能的发展做出了重要贡献。然而,随着Transformer技术的出现,LSTM逐渐淡出了人们的视野。那么,如果将 LSTM 扩展到数十亿个参数,利用LLM技术打破LSTM的局限性,LSTM在语言建模方面还能走多远呢?
ShuYini
2024-05-09
544
0
7262篇提交,ICLR 2024爆火,两篇国内论文获杰出论文提名
论文
模型
数据
性能
机器人
ICLR 全称为国际学习表征会议(International Conference on Learning Representations),今年举办的是第十二届,于 5 月 7 日至 11 日在奥地利维也纳展览会议中心举办。
ShuYini
2024-05-09
112
0
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
立即学习
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档