ShuYini

腾讯云

开发者社区

文档建议反馈控制台

首页TVP

LV0

发表了文章 4天前2024-05-17 20:33:25

全面开源，免费商用！腾讯| 发布混元文生图大模型，采用业内首个中文原生DiT架构！

5 月 14 日，腾讯宣布旗下混元文生图大模型全面升级并全面开源，目前已在 Hugging Face 平台及 GitHub 上发布，包含模型权重、推理代码、模型...

ShuYini 4天前2024-05-17 20:33:25

算法、腾讯、开源、架构、模型

发表了文章 4天前2024-05-17 20:32:31

剑桥 | 提出Hypernetwork，解耦LLMs分词器(Tokenizer)，提高LLMs跨语言处理性能！

大模型（LLM）主要依赖于分词器（Tokenizer ）将文本转换为Tokens，目前主流开源大模型基本上都是基于英文数据集训练得到的，然而，此类模型当处理其它...

ShuYini 4天前2024-05-17 20:32:31

迁移、模型、网络、性能、字符串

发表了文章 4天前2024-05-17 20:31:38

数据污染迫在眉睫！GSM8k测试基准将不再可靠，Mistral、Phi等系列模型出现过拟合！

大模型数学推理评测基本上都绕不开GSM8k测试基准，当前很多大模型在该数据集上都展现出较强的性能。然而，本文作者怀疑此类模型在训练过程种可能包含了与测试题目相似...

ShuYini 4天前2024-05-17 20:31:38

测试、模型、数据、数学、性能

发表了文章 4天前2024-05-17 20:31:10

斯坦福 | 开源全新AI加速框架：百行代码，让H100提速30%！

AI 的快速发展，伴随而来的是大计算量。这就自然而然的引出了一个问题：如何减少 AI 对计算的需求，并提高现有 AI 计算效率。

ShuYini 4天前2024-05-17 20:31:10

硬件、开源、框架、内存、内核

发表了文章 4天前2024-05-17 20:29:48

下周！OpenAI将有大动作，奥特曼剧透：Not GPT-5，Not 搜索引擎

OpenAI 有了新动向！今日凌晨 OpenAI 官宣，将于美国时间 13 日上午 10 点进行一场直播。Sam Altman 随即转发这一消息，并表示「不是 ...

ShuYini 4天前2024-05-17 20:29:48

openai、苹果、音频、搜索引擎、gpt

发表了文章 10天前2024-05-11 12:32:45

ByteDance| 将MoE 整合至多模态LLMs，降低了推理成本，多模态性能达到SOTA！

目前多模态LLMs主要通过增加文图对（ text-image）数据和增强LLMs来提升性能，然而，此类方法计算成本较高，同时忽略了从视觉方面提升模型能力的重要性...

ShuYini 10天前2024-05-11 12:32:45

模型、数据、性能、优化、基础

发表了文章 10天前2024-05-11 12:31:44

上交| 提出一致性大模型：CLLMs，提升3倍生成速度，降低内存成本！

来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器，并介绍了一种新的并行解码器族，称为一致性大语言模型（CLL...

ShuYini 10天前2024-05-11 12:31:45

内存、数据、效率、token、模型

发表了文章 11天前2024-05-10 11:01:07

ICLR 2024| 用巧妙的「传送」技巧，让神经网络的训练更加高效

众多神经网络模型中都会有一个有趣的现象：不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释，即某些参数的变换不会影响损失函数的结果。基于这一...

ShuYini 11天前2024-05-10 11:01:07

技巧、模型、算法、优化、神经网络

发表了文章 11天前2024-05-10 11:00:20

中山&港大| 提出DQ-LoRe框架，自动选择上下文示例，为LLMs复杂推理开辟新道路！

大模型（LLMs）在上下文学习方面展现出了卓越的能力。为了提高LLMs在复杂推理任务中的表现，人们提出思维链”（Chain-of-Thought，CoT）的方法...

ShuYini 11天前2024-05-10 11:00:20

数据、测试、框架、模型、排序

发表了文章 12天前2024-05-09 11:04:40

LSTM依然能打！最新xLSTM架构：怒超先进Transformer和状态空间模型（SSM）

LSTM（ Long Short-Term Memory）最早源于20世纪90年代，为人工智能的发展做出了重要贡献。然而，随着Transformer技术的出现，...

ShuYini 12天前2024-05-09 11:04:40

模型、网络、lstm、ssm、架构

发表了文章 12天前2024-05-09 11:04:24

7262篇提交，ICLR 2024爆火，两篇国内论文获杰出论文提名

ICLR 全称为国际学习表征会议（International Conference on Learning Representations），今年举办的是第十二...

ShuYini 12天前2024-05-09 11:04:25

论文、模型、数据、性能、机器人

发表了文章 13天前2024-05-08 11:28:41

拒绝造神！KAN网络技术最全解析：能干掉MLP和Transformer吗？

陈巍：KAN网络结构思路来自Kolmogorov-Arnold表示定理。MLP 在节点（“神经元”）上具有固定的激活函数，而 KAN 在边（“权重”）上具有可学...

ShuYini 13天前2024-05-08 11:28:41

函数、模型、数据、数学、网络

发表了文章 14天前2024-05-07 10:06:22

微软| 发布Phi-3技术报告，3.8B参数量超越GPT-3.5，手机可跑！

过去几年，借助Scaling Laws的魔力，预训练的数据集不断增大，使得大模型的参数量也可以越做越大，从五年前的数十亿参数已经成长到今天的万亿级，在各个自然语...

ShuYini 14天前2024-05-07 10:06:22

gpt、模型、手机、数据、性能

发表了文章 15天前2024-05-06 16:44:51

五一假期，您可能忽略的最新研究进展：涉及大模型Agent、多模态、图神经网络、SLM等！

五一假期转瞬即逝，明天又要投入到紧张而充实的工作学习中了。假期的最后一天，作者总结了假期期间一些优秀的学术成果，供大家学习交流。这些论文不仅涵盖了多模态、大模型...

ShuYini 15天前2024-05-06 16:44:51

推荐系统、agent、模型、性能、神经网络

发表了文章 15天前2024-05-06 16:44:38

斯坦福 | 提出OctopusV3，参数不超1B，媲美GPT-4V和GPT-4

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据，从而指导其行为决策。近期，将视觉数据纳入大型语言模型 (如 GPT-4V) ...

ShuYini 15天前2024-05-06 16:44:38

模型、数据、系统、gpt、开发

发表了文章 15天前2024-05-06 16:44:25

华为诺亚| 提出自推测解码框架：Kangaroo，降低成本，提升大模型推理效率！

为了提升大模型的推理效率，本文作者提出一种新型的自推测解码框架：Kangaroo，该框架将大模型的一个固定浅层子网络作为自草稿模型（self-drafting ...

ShuYini 15天前2024-05-06 16:44:25

框架、模型、网络、效率、华为

发表了文章 15天前2024-05-06 16:44:08

微软 | WizardLM-2被紧急撤回，有内幕？

前段时间，微软搞了个乌龙：隆重地开源了 WizardLM-2，又在不久后撤回得干干净净。

ShuYini 15天前2024-05-06 16:44:08

开源、强化学习、测试、模型、数据

发表了文章 15天前2024-05-06 16:43:53

分享最新10篇大模型论文，涉及应用、多模态、推理增强、剪枝等热点话题！

好久没有给大家梳理文章了，今天分享8篇有关大模型(LLMs)的最新研究进展，其中涉及涉及大模型推理、应用、方法论、多模态、剪枝等热门研究方向。全部论文获取方式，...

ShuYini 15天前2024-05-06 16:43:54

性能、框架、论文、模型、内存

发表了文章 15天前2024-05-06 16:42:29

斯坦福 | Altman闭门演讲！GPT-5比GPT-4强得多，GPT-6在路上！

奥特曼指出：GPT-5会比GPT-4强得多，GPT-6还会更强；Scaling Law还未过时，我们远未达到这条曲线的顶端；谷歌用GPT-4复刻出Gemini很...

ShuYini 15天前2024-05-06 16:42:29

人工智能、游戏、开源、gpt、模型

发表了文章 15天前2024-05-06 16:42:11

Unimore| 提出多模态大模型检索生成架构：Wiki-LLaVA，大幅提升视觉QA性能！

多模态大模型是大模型发展的必然趋势，它拓展了大模型的性能，超越了纯文本问答模式。对于大模型来说，为了能够尽快适配快速变化的事实知识，目前常见的方法就是检索增强生...

ShuYini 15天前2024-05-06 16:42:11

数据、性能、wiki、架构、模型

12 3 4 5 6 7 8...17 下一页

个人简介

暂未填写公司和职称
公众号：AINLPer
深度学习 pytorch github 人工智能
暂未填写学校和专业
暂未填写个人网址
上海
加入社区时间：2019-08-07

个人成就

获得 623 次赞同
文章被阅读 298K 次
文章获得 1 次首页推荐

关注了：1关注者：57

ShuYini

全面开源，免费商用！腾讯| 发布混元文生图大模型，采用业内首个中文原生DiT架构！

剑桥 | 提出Hypernetwork，解耦LLMs分词器(Tokenizer)，提高LLMs跨语言处理性能！

数据污染迫在眉睫！GSM8k测试基准将不再可靠，Mistral、Phi等系列模型出现过拟合！

斯坦福 | 开源全新AI加速框架：百行代码，让H100提速30%！

下周！OpenAI将有大动作，奥特曼剧透：Not GPT-5，Not 搜索引擎

ByteDance| 将MoE 整合至多模态LLMs，降低了推理成本，多模态性能达到SOTA！

上交| 提出一致性大模型：CLLMs，提升3倍生成速度，降低内存成本！

ICLR 2024| 用巧妙的「传送」技巧，让神经网络的训练更加高效

中山&港大| 提出DQ-LoRe框架，自动选择上下文示例，为LLMs复杂推理开辟新道路！

LSTM依然能打！最新xLSTM架构：怒超先进Transformer和状态空间模型（SSM）

7262篇提交，ICLR 2024爆火，两篇国内论文获杰出论文提名

拒绝造神！KAN网络技术最全解析：能干掉MLP和Transformer吗？

微软| 发布Phi-3技术报告，3.8B参数量超越GPT-3.5，手机可跑！

五一假期，您可能忽略的最新研究进展：涉及大模型Agent、多模态、图神经网络、SLM等！

斯坦福 | 提出OctopusV3，参数不超1B，媲美GPT-4V和GPT-4

华为诺亚| 提出自推测解码框架：Kangaroo，降低成本，提升大模型推理效率！

微软 | WizardLM-2被紧急撤回，有内幕？

分享最新10篇大模型论文，涉及应用、多模态、推理增强、剪枝等热点话题！

斯坦福 | Altman闭门演讲！GPT-5比GPT-4强得多，GPT-6在路上！

Unimore| 提出多模态大模型检索生成架构：Wiki-LLaVA，大幅提升视觉QA性能！

个人简介

个人成就

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

ShuYini

全面开源，免费商用！腾讯| 发布混元文生图大模型，采用业内首个中文原生DiT架构！

剑桥 | 提出Hypernetwork，解耦LLMs分词器(Tokenizer)，提高LLMs跨语言处理性能！

数据污染迫在眉睫！GSM8k测试基准 将不再可靠，Mistral、Phi等系列模型出现过拟合！

斯坦福 | 开源全新AI加速框架：百行代码，让H100提速30%！

下周！OpenAI将有大动作，奥特曼剧透：Not GPT-5，Not 搜索引擎

ByteDance| 将MoE 整合至多模态LLMs，降低了推理成本，多模态性能达到SOTA！

上交| 提出一致性大模型：CLLMs，提升3倍生成速度，降低内存成本！

ICLR 2024| 用巧妙的「传送」技巧，让神经网络的训练更加高效

中山&港大| 提出DQ-LoRe框架，自动选择上下文示例，为LLMs复杂推理开辟新道路！

LSTM依然能打！最新xLSTM架构：怒超先进Transformer和状态空间模型（SSM）

7262篇提交，ICLR 2024爆火，两篇国内论文获杰出论文提名

拒绝造神！KAN网络技术最全解析：能干掉MLP和Transformer吗？

微软| 发布Phi-3技术报告，3.8B参数量超越GPT-3.5，手机可跑！

五一假期，您可能忽略的最新研究进展：涉及大模型Agent、多模态、图神经网络、SLM等！

斯坦福 | 提出OctopusV3，参数不超1B，媲美GPT-4V和GPT-4

华为诺亚| 提出自推测解码框架：Kangaroo，降低成本，提升大模型推理效率！

微软 | WizardLM-2被紧急撤回，有内幕？

分享最新10篇大模型论文，涉及应用、多模态、推理增强、剪枝等热点话题！

斯坦福 | Altman闭门演讲！GPT-5比GPT-4强得多，GPT-6在路上！

Unimore| 提出多模态大模型检索生成架构：Wiki-LLaVA，大幅提升视觉QA性能！

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

数据污染迫在眉睫！GSM8k测试基准将不再可靠，Mistral、Phi等系列模型出现过拟合！