zenRRan

文章/答案/技术大牛

发布

LV0

发表了文章 2025-02-032025-02-03 07:47:56

幻方发布全球最强MOE大模型！ DeepSeek-V2

仓库和技术报告地址：https://github.com/deepseek-ai/DeepSeek-V2 来自：包包算法笔记 EMNLP2024投稿群建立！

zenRRan 2025-02-032025-02-03 21:28:59

DeepSeek

发表了文章 2025-02-032025-02-03 07:43:59

Deepseek-V2技术报告解读！全网最细！

深度求索Deepseek近日发布了v2版本的模型，沿袭了1月发布的 Deepseek-MoE（混合专家模型）的技术路线，采用大量的小参数专家进行建模，同时在训练...

zenRRan 2025-02-032025-02-03 21:29:00

DeepSeek

发表了文章 2024-07-262024-07-26 14:49:53

大语言模型越狱攻击综述

今天为大家介绍清华大学计算机系徐恪、宋佳兴、李琦老师团队，高研院丛天硕老师，和香港科技大学(广州)何新磊老师联合完成的综述《Jailbreak Attacks ...

zenRRan 2024-07-262024-07-26 14:49:54

prompt、模型、数据、系统、优化

发表了文章 2024-07-152024-07-15 14:36:17

解决问题而非制造问题！GLM-4-AllTools API革新大模型使用体验

把时间推回到250万年前，旧石器时代见证了人类从简单工具的使用者到复杂技术创造者的转变。我们的祖先南方古猿、直立人等，逐步发展出更高级的工具，如手斧和刮刀，以适...

zenRRan 2024-07-152024-07-15 14:36:18

搜索、api、glm、工具、模型

发表了文章 2024-07-042024-07-04 12:44:16

Qwen2大模型微调入门实战-命名实体识别（NER）任务

以Qwen2作为基座大模型，通过指令微调的方式做高精度的命名实体识别（NER），是学习入门LLM微调、建立大模型认知的非常好的任务。

zenRRan 2024-07-042024-07-04 12:44:16

模型、入门、数据、entity、测试

发表了文章 2024-07-042024-07-04 12:43:41

陈丹琦团队发布CharXiv数据集：重新定义图表理解的评估标准

这篇文章的标题是《CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal L...

zenRRan 2024-07-042024-07-04 12:43:41

开源、论文、模型、数据、图表

发表了文章 2024-07-042024-07-04 12:43:16

优化AI输出：长度约束下的指令遵循模型研究

这篇文章的标题是《Following Length Constraints in Instructions》，作者是Weizhe Yuan、Ilia Kulik...

zenRRan 2024-07-042024-07-04 12:43:17

测试、工作、模型、算法、优化

发表了文章 2024-07-042024-07-04 12:42:36

复旦+上海AI Lab提出统一主动检索RAG，减少延迟，提升响应

这篇文章的标题是《Unified Active Retrieval for Retrieval Augmented Generation》，作者是Qinyuan...

zenRRan 2024-07-042024-07-04 12:42:36

框架、论文、模型、系统、性能

发表了文章 2024-07-042024-07-04 12:42:09

ENVISIONS：一种无需人类标注的LLM自训练框架

这篇论文提出了一个名为ENVISIONS的环境引导的神经符号自训练框架，旨在解决以下两个问题：

zenRRan 2024-07-042024-07-04 12:42:09

论文、模型、数据、LLM、框架

发表了文章 2024-07-042024-07-04 12:41:45

现在LLM 的大小为什都设计成6/7B、13B和130B几个档次？

知乎：真中合欢链接：https://www.zhihu.com/question/627258986/answer/3262812950

zenRRan 2024-07-042024-07-04 12:41:45

框架、模型、设计、数据、LLM

发表了文章 2024-07-042024-07-04 12:41:04

阿里千问团队提出AutoIF，让LLMs学会自我指导，简单有效，性能显著

这篇论文试图解决的问题是如何自动构建高质量的训练数据，以增强大型语言模型（LLMs）遵循复杂自然语言指令的能力。具体来说，论文指出了以下几个关键问题：

zenRRan 2024-07-042024-07-04 12:41:05

性能、自动化、论文、模型、数据

发表了文章 2024-07-042024-07-04 12:40:35

Q*框架：通过有意识引导无需微调即可提升LLMs多步推理能力

这篇文章介绍了一个名为Q的框架，旨在改善大型语言模型（LLMs）在多步推理任务中的性能。作者指出，尽管LLMs在许多自然语言任务上表现出色，但在执行多步推理时，...

zenRRan 2024-07-042024-07-04 12:40:35

数据、性能、框架、论文、模型

发表了文章 2024-06-212024-06-21 12:44:12

ACL2024 | AI的时空穿越记：大型语言模型共时推理的奇幻之旅！

标题：Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? ...

zenRRan 2024-06-212024-06-21 12:44:12

数学、论文、模型、事件、数据

发表了文章 2024-06-182024-06-18 17:00:54

突破性进展：简单有效的新型Masked扩散模型革新语言生成，与自回归模型媲美

文章旨在解决扩散模型（diffusion models）在生成高质量图像方面表现出色，但在语言建模（language modeling）任务中与自回归（auto...

zenRRan 2024-06-182024-06-18 17:00:54

测试、论文、模型、数据、性能

发表了文章 2024-06-182024-06-18 17:00:44

BERT的逆袭：揭秘如何在无需额外训练下释放语言模型的生成能力

文章探讨了掩码语言模型（MLMs，例如BERT和DeBERTa）在上下文学习（in-context learning）方面的能力，挑战了普遍观点，即这种能力在这...

zenRRan 2024-06-182024-06-18 17:00:45

工作、论文、模型、机器翻译、存储

发表了文章 2024-06-182024-06-18 16:59:38

大模型能看懂图片的弦外之音吗？多模态大模型新基准II-Bench

在人工智能飞速发展的今天，大模型的感知能力已经达到了令人惊叹的水平。但是，它们真的能够像人类一样，洞悉图片中的深层含义吗？为了探讨多模型大模型与人类的差距，来自...

zenRRan 2024-06-182024-06-18 16:59:38

人工智能、测试、模型、数据、性能

发表了文章 2024-06-072024-06-07 19:23:20

3万字详细解析清华大学最新综述工作：大模型高效推理综述

大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而，大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推...

zenRRan 2024-06-072024-06-07 19:23:21

内存、优化、工作、量化、模型

发表了文章 2024-05-292024-05-29 14:55:16

YOCO：全新Decoder-Decoder架构，内容减少6倍，推理速度提升30倍

这篇论文介绍了一种名为YOCO（You Only Cache Once）的新型解码器-解码器架构，旨在提高大型语言模型的推理效率和性能。

zenRRan 2024-05-292024-05-29 14:55:17

内存、缓存、架构、论文、模型

发表了文章 2024-05-112024-05-11 14:17:41

仅用250美元，Hugging Face技术主管手把手教你微调Llama 3

我们知道，Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开...

zenRRan 2024-05-112024-05-11 14:17:42

开源、测试、模型、内存、数据

发表了文章 2024-05-112024-05-11 14:16:40

陈丹琦团队提出最新MoE架构Lory

陈丹琦团队提出了一种名为 Lory 的新型混合专家（Mixture-of-Experts，简称 MoE）模型，专门用于自回归语言模型的预训练。以下是对文章内容的...

zenRRan 2024-05-112024-05-11 14:16:40

模型、数据、基础、架构、路由

12 3 4 5 6 7 8...52 下一页

个人简介

暂未填写公司和职称
暂未填写个人简介
神经网络深度学习 python 机器学习人工智能
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2018-04-03

个人成就

获得 2.6K 次赞同
文章被阅读 1.6M 次

关注了：2关注者：230