ShuYini

腾讯云

开发者社区

文档建议反馈控制台

首页TVP

LV0

全部文章

分享几个有趣的大模型（LLMs）应用场景，涉及金融分析、物联网、招聘、战术分析等
数字化时代，大模型以其卓越的数据处理和智能决策能力，当前应用已经渗透至了各行各业。那么，今天给大家盘点了几个比较有趣的大模型（LLMs）应用场景，其中主要包括招...
ShuYini 3天前2024-06-11 19:32:38
金融、物联网、代理、模型、数据
KAIST-AI | 提出Block Transformer架构，大幅提升推理速度和内存效率，20倍增益！
Transformer模型虽然在NLP领域取得了巨大成功，但其Self-Attention机制在处理长序列时会导致计算和内存需求急剧增加，这限制了其在资源受限环...
ShuYini 3天前2024-06-11 19:31:59
内存、效率、block、架构、模型
Meta| 提出上下文位置编码：CoPE，解决当前模型「普遍存在的问题」，含GPT-4o！
Attention机制是大模型的核心组件，但该机制并不包含顺序信息，需要进行位置编码。当前位置编码（PE）主要是通过Token计数来定位，这限制了其泛化能力。例...
ShuYini 14天前2024-05-31 14:10:12
gpt、meta、编码、模型、性能
恐怖如斯！GSU | 提出VB-LoRA，仅需LoRA参数的0.4%，就超越了LoRA微调效果
随着大模型应用的不断推广，面对不同应用场景模型的定制化需求也不断增涨。但参数高效微调 (PEFT) 方法，比如LoRA及其变体会产生大量的参数存储和传输成本。为...
ShuYini 15天前2024-05-30 16:02:05
存储、基础、模型、性能、LoRa
哈工大 | 提出共享Attention框架：SAPT，提升LLM持续学习性能
在大模型实际部署落地的过程中，如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑...
ShuYini 15天前2024-05-30 15:50:51
模型、性能、LLM、迁移、框架
牛叉！UConn | 提出代码生成大模型：AutoCoder，性能超越GPT-4o！
大模型训练需要高质量数据集，这对于代码生成任务来说尤其重要。为此本文提出了一种新型大规模代码指令数据集标注方法：AIEV-INSTRUCT，得到了一个高质量代码...
ShuYini 16天前2024-05-29 14:32:06
数据、性能、开源、gpt、模型
开源金融领域AI Agent平台：FinRobot，利用多源LLMs进行高级金融分析、市场预测
在当今快速发展的金融领域，数据分析和决策制定的重要性日益凸显。随着人工智能技术的不断进步，尤其是大模型（LLMs）的出现，金融专业人士和普通用户都面临着一个共同...
ShuYini 17天前2024-05-28 16:36:16
金融、开源、agent、模型、算法
细数：大模型评估基准的「七宗罪」
在 CV 领域，研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。
ShuYini 17天前2024-05-28 16:33:55
测试、工具、论文、模型、性能
麻省理工(MIT) | 提出跨层Attention，减少Transformer大模型键值(KV)缓存，加快LLM推理！
键值 (KV) 缓存能够显著提升Transformer大模型的解码速度。但是当面对长序列的时候，键值 (KV) 缓存需要大量的内存资源。当前减少键值 (KV) ...
ShuYini 17天前2024-05-28 16:32:19
内存、LLM、缓存、架构、模型
RU | 提出手语生成大模型：SignLLM，支持8种手语生成，且均达到SOTA！
手语对于听障人士的交流至关重要。然而，手语数据的获取和处理非常复杂，这限制了手语生成模型的发展。为推动手语生成领域的发展，本文作者提出了一个多语种手语数据集Pr...
ShuYini 17天前2024-05-28 16:31:14
工具、模型、视频、数据、性能
学的少，忘的少！UC | LoRA最新研究：总结LoRA最佳实践，实现LLMs高效微调！
本文深入探讨了当前主流大模型高效微调方法——低秩适应（LoRA）。在代码编程、数学推理两个领域，对比了LoRA和全微调在不同数据规模下的性能。结果表明：LoRA...
ShuYini 17天前2024-05-28 16:27:35
LoRa、模型、数据、数学、最佳实践
全面开源，免费商用！腾讯| 发布混元文生图大模型，采用业内首个中文原生DiT架构！
5 月 14 日，腾讯宣布旗下混元文生图大模型全面升级并全面开源，目前已在 Hugging Face 平台及 GitHub 上发布，包含模型权重、推理代码、模型...
ShuYini 28天前2024-05-17 20:33:25
算法、腾讯、开源、架构、模型
剑桥 | 提出Hypernetwork，解耦LLMs分词器(Tokenizer)，提高LLMs跨语言处理性能！
大模型（LLM）主要依赖于分词器（Tokenizer ）将文本转换为Tokens，目前主流开源大模型基本上都是基于英文数据集训练得到的，然而，此类模型当处理其它...
ShuYini 28天前2024-05-17 20:32:31
迁移、模型、网络、性能、字符串
数据污染迫在眉睫！GSM8k测试基准将不再可靠，Mistral、Phi等系列模型出现过拟合！
大模型数学推理评测基本上都绕不开GSM8k测试基准，当前很多大模型在该数据集上都展现出较强的性能。然而，本文作者怀疑此类模型在训练过程种可能包含了与测试题目相似...
ShuYini 28天前2024-05-17 20:31:38
测试、模型、数据、数学、性能
斯坦福 | 开源全新AI加速框架：百行代码，让H100提速30%！
AI 的快速发展，伴随而来的是大计算量。这就自然而然的引出了一个问题：如何减少 AI 对计算的需求，并提高现有 AI 计算效率。
ShuYini 28天前2024-05-17 20:31:10
硬件、开源、框架、内存、内核
下周！OpenAI将有大动作，奥特曼剧透：Not GPT-5，Not 搜索引擎
OpenAI 有了新动向！今日凌晨 OpenAI 官宣，将于美国时间 13 日上午 10 点进行一场直播。Sam Altman 随即转发这一消息，并表示「不是 ...
ShuYini 28天前2024-05-17 20:29:48
openai、苹果、音频、搜索引擎、gpt
ByteDance| 将MoE 整合至多模态LLMs，降低了推理成本，多模态性能达到SOTA！
目前多模态LLMs主要通过增加文图对（ text-image）数据和增强LLMs来提升性能，然而，此类方法计算成本较高，同时忽略了从视觉方面提升模型能力的重要性...
ShuYini 2024-05-112024-05-11 12:32:45
模型、数据、性能、优化、基础
上交| 提出一致性大模型：CLLMs，提升3倍生成速度，降低内存成本！
来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器，并介绍了一种新的并行解码器族，称为一致性大语言模型（CLL...
ShuYini 2024-05-112024-05-11 12:31:45
内存、数据、效率、token、模型
ICLR 2024| 用巧妙的「传送」技巧，让神经网络的训练更加高效
众多神经网络模型中都会有一个有趣的现象：不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释，即某些参数的变换不会影响损失函数的结果。基于这一...
ShuYini 2024-05-102024-05-10 11:01:07
技巧、模型、算法、优化、神经网络
中山&港大| 提出DQ-LoRe框架，自动选择上下文示例，为LLMs复杂推理开辟新道路！
大模型（LLMs）在上下文学习方面展现出了卓越的能力。为了提高LLMs在复杂推理任务中的表现，人们提出思维链”（Chain-of-Thought，CoT）的方法...
ShuYini 2024-05-102024-05-10 11:00:20
数据、测试、框架、模型、排序

12 3 4 5 6 7 8...17 下一页

个人简介

暂未填写公司和职称
公众号：AINLPer
深度学习 pytorch github 人工智能
暂未填写学校和专业
暂未填写个人网址
上海
加入社区时间：2019-08-07

个人成就

获得 638 次赞同
文章被阅读 327.4K 次
文章获得 1 次首页推荐

关注了：1关注者：68

ShuYini

全部文章

分享几个有趣的大模型（LLMs）应用场景，涉及金融分析、物联网、招聘、战术分析等

KAIST-AI | 提出Block Transformer架构，大幅提升推理速度和内存效率，20倍增益！

Meta| 提出上下文位置编码：CoPE，解决当前模型「普遍存在的问题」，含GPT-4o！

恐怖如斯！GSU | 提出VB-LoRA，仅需LoRA参数的0.4%，就超越了LoRA微调效果

哈工大 | 提出共享Attention框架：SAPT，提升LLM持续学习性能

牛叉！UConn | 提出代码生成大模型：AutoCoder，性能超越GPT-4o！

开源金融领域AI Agent平台：FinRobot，利用多源LLMs进行高级金融分析、市场预测

细数：大模型评估基准的「七宗罪」

麻省理工(MIT) | 提出跨层Attention，减少Transformer大模型键值(KV)缓存，加快LLM推理！

RU | 提出手语生成大模型：SignLLM，支持8种手语生成，且均达到SOTA！

学的少，忘的少！UC | LoRA最新研究：总结LoRA最佳实践，实现LLMs高效微调！

全面开源，免费商用！腾讯| 发布混元文生图大模型，采用业内首个中文原生DiT架构！

剑桥 | 提出Hypernetwork，解耦LLMs分词器(Tokenizer)，提高LLMs跨语言处理性能！

数据污染迫在眉睫！GSM8k测试基准将不再可靠，Mistral、Phi等系列模型出现过拟合！

斯坦福 | 开源全新AI加速框架：百行代码，让H100提速30%！

下周！OpenAI将有大动作，奥特曼剧透：Not GPT-5，Not 搜索引擎

ByteDance| 将MoE 整合至多模态LLMs，降低了推理成本，多模态性能达到SOTA！

上交| 提出一致性大模型：CLLMs，提升3倍生成速度，降低内存成本！

ICLR 2024| 用巧妙的「传送」技巧，让神经网络的训练更加高效

中山&港大| 提出DQ-LoRe框架，自动选择上下文示例，为LLMs复杂推理开辟新道路！

个人简介

个人成就

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

ShuYini

分享几个有趣的大模型（LLMs）应用场景，涉及金融分析、物联网、招聘、战术分析等

KAIST-AI | 提出Block Transformer架构，大幅提升推理速度和内存效率，20倍增益！

Meta| 提出上下文位置编码：CoPE，解决当前模型「普遍存在的问题」，含GPT-4o！

恐怖如斯！GSU | 提出VB-LoRA，仅需LoRA参数的0.4%，就超越了LoRA微调效果

哈工大 | 提出共享Attention框架：SAPT，提升LLM持续学习性能

牛叉！UConn | 提出代码生成大模型：AutoCoder，性能超越GPT-4o！

开源金融领域AI Agent平台：FinRobot，利用多源LLMs进行高级金融分析、市场预测

细数：大模型评估基准的「七宗罪」

麻省理工(MIT) | 提出跨层Attention，减少Transformer大模型键值(KV)缓存，加快LLM推理！

RU | 提出手语生成大模型：SignLLM，支持8种手语生成，且均达到SOTA！

学的少，忘的少！UC | LoRA最新研究：总结LoRA最佳实践，实现LLMs高效微调！

全面开源，免费商用！腾讯| 发布混元文生图大模型，采用业内首个中文原生DiT架构！

剑桥 | 提出Hypernetwork，解耦LLMs分词器(Tokenizer)，提高LLMs跨语言处理性能！

数据污染迫在眉睫！GSM8k测试基准 将不再可靠，Mistral、Phi等系列模型出现过拟合！

斯坦福 | 开源全新AI加速框架：百行代码，让H100提速30%！

下周！OpenAI将有大动作，奥特曼剧透：Not GPT-5，Not 搜索引擎

ByteDance| 将MoE 整合至多模态LLMs，降低了推理成本，多模态性能达到SOTA！

上交| 提出一致性大模型：CLLMs，提升3倍生成速度，降低内存成本！

ICLR 2024| 用巧妙的「传送」技巧，让神经网络的训练更加高效

中山&港大| 提出DQ-LoRe框架，自动选择上下文示例，为LLMs复杂推理开辟新道路！

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

数据污染迫在眉睫！GSM8k测试基准将不再可靠，Mistral、Phi等系列模型出现过拟合！