首页
学习
活动
专区
工具
TVP
发布

#论文

【随笔专题_01】毕业论文格式整合

浅夏的猫

每每到了毕业季,很多人就开始被毕业论文搞得焦头烂额了,这边还在改初稿,那边查重就一堆堆的,最烦人的还是论文写好了,查重也过了,却往往被论文格式卡的死死的,心烦意...

900

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

计算机视觉研究院

在谷歌 DeepMind 近日的一篇论文中,研究者提出了 RG-LRU 层,它是一种新颖的门控线性循环层,并围绕它设计了一个新的循环块来取代多查询注意力(MQA...

1400

每日论文速递 | 用于参数高效微调的小型集成LoRA

zenRRan

摘要:参数高效微调(PEFT)是一种流行的方法,用于裁剪预训练的大型语言模型(LLM),特别是随着模型规模和任务多样性的增加。低秩自适应(LoRA)基于自适应过...

7210

每日论文速递 | 当缩放遇到LLM微调:数据、模型和微调方法的影响

zenRRan

摘要:虽然大型语言模型(LLM)通常采用微调来解锁其下游应用程序的功能,但我们对不同微调方法的归纳偏差(特别是缩放属性)的理解仍然有限。为了填补这一空白,我们进...

7010

每日论文速递 | 语言模型的最优学习

zenRRan

摘要:这项工作研究了改善语言模型(LM)学习的一般原则,旨在减少必要的训练步骤,以实现卓越的性能。具体来说,我们提出了一个理论的LM的最佳学习。我们首先提出了一...

5410

每日论文速递 | 1-bit LLM时代:所有LLM都在1.58Bit中

zenRRan

A:这篇论文介绍了一种新型的1位大型语言模型(LLM)变体,称为BitNet b1.58。以下是论文的主要内容总结:

14810

每日论文速递 | 基于例子还是基于规则:Transformers是如何进行数学运算的?

zenRRan

摘要:尽管在各种复杂任务中表现出色,但现代大型语言模型(LLM)仍然难以处理一些对人类来说简单直观的数学问题,例如加法。虽然我们可以很容易地学习加法的基本规则,...

7310

每日论文速递 | LLM中的大规模激活

zenRRan

A: 这篇论文主要研究了大型语言模型(LLMs)中的一个现象,即在模型的隐藏状态中存在极少数激活值(activations)远大于其他激活值的情况,这些被称为“...

5210

每日论文速递 | Agent-Pro:通过策略级反思和优化学习进化

zenRRan

A:这篇论文试图解决的问题是如何设计一个基于大型语言模型(LLMs)的智能代理(Agent-Pro),使其能够在复杂的交互环境中通过政策层面的反思和优化来学习和...

2900

8/8/6/3的Mamba论文,最终还是被ICLR 2024拒了,网友:悬着的心终于死了

zenRRan

大家应该还记得,Mamba 被 ICLR 2024 大会 Decision Pending(待定)的消息在 1 月份引发过一波社区热议。

5910

南大俞扬教授:什么是world models/世界模型?

zenRRan

随着媒体狂炒Sora,OpenAI的介绍材料中称Sora是 “world simulator”,世界模型这个词又进入视野,但很少有文章来介绍世界模型。这里回顾一...

7510

NC图表复现|箱线图叠加多重注释元素

R语言数据分析指南

5510

NC图表复现-时序分析预测图

R语言数据分析指南

7710

2024年2月深度学习的论文推荐

deephub

Searchformer是一个基于Transformer架构的人工智能模型,经过训练可以模拟A星寻路算法,在复杂的规划任务中实现更高的效率。它在Sokoban谜...

9910

PHATGOOSE:使用LoRA Experts创建低成本混合专家模型实现零样本泛化

deephub

这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Exper...

8310

跟着Plos Genetics学数据分析:LTRpred流程注释完整的LTR(1)安装篇

用户7010445

https://doi.org/10.1371/journal.pgen.1008370

9810

微软、国科大开启1Bit时代:大模型转三进制,速度快4倍能耗降至1/41

机器之心

今天凌晨,由微软、国科大等机构提交的一篇论文在 AI 圈里被人们争相转阅。该研究提出了一种 1-bit 大模型,实现效果让人只想说两个字:震惊。

8310

使用腾讯云 Cloud studio 实现调度百度AI实现文字识别

全栈若城

这段代码设置了百度AI的APP_ID、API_KEY和SECRET_KEY,并使用这些参数创建了一个AipOcr对象。

7210

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

量子位

这就是阿里最新推出的基于音频驱动的肖像视频生成框架,EMO(Emote Portrait Alive)。

8410

微软6页论文爆火:三进制LLM,真香!

量子位

具体而言,这项研究提出的方法叫做BitNet b1.58,可以说是从大语言模型“根儿”上的参数下手。

11510
领券