首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#LLM

docker运行perplexica

code4it

searxng目前国内能访问的就是bing和wolframalpha,研究了半天添加搜狗搜索没成功,可能需要代码定制。perplexica目前还没有找到如何定制...

900

NVIDIA:LLM集群存储IO行为(实测数据)

数据存储前沿技术

按:本文含NV-H100计算集群真实数据,实测训练时:文件写入、训练期间、检查点写入三个主要阶段的存储系统IO/带宽特征,并讨论了基于异步写入扩展检查点写入带宽...

3510

做了一个非结构化数据处理助手,可以自由抓取网页、处理文本、音视频等等

我发现我在做AI应用的时候,不管是如何做,底层都需要做数据获取的服务。而市面上大部分产品都没有开放这样的服务,而且自己做数据获取服务很复杂,所以我希望有这样的服...

3510

手把手带你3步本地私有化部署DeepSeekR1,亲测成功

烟雨平生

DeepSeek 是国内顶尖 AI 团队「深度求索」开发的多模态大模型,具备数学推理、代码生成等深度能力,堪称"AI界的六边形战士"。

74560

如何快速部署DeepSeek| 腾讯云TI部署指南

fanstuck

近年来,随着大模型与多场景应用的蓬勃发展,AI工程师越来越需要快速、高效且低成本地部署和管理模型服务。腾讯云HAI(High-performance AI)平台...

25831

DeepSeek-R1 论文解析——人工智能领域的 RL LLM 新时代?

致Great

在咱们深入探讨那篇论文之前,先简单回顾一下大型语言模型(LLM)是怎么训练出来的。一般来说,LLM的训练可以分为三个主要阶段:

18710

从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?

立委

主持人: 大家好,欢迎来到今天的访谈。最近,大模型的“幻觉”问题引发了热议,尤其是DeepSeek-R1,它的幻觉率似乎比自己的基座大模型DeepSeek-V3...

12510

如何快速接入DeepSeek | 腾讯云HAI部署指南

fanstuck

近年来,随着大模型与多场景应用的蓬勃发展,AI工程师越来越需要快速、高效且低成本地部署和管理模型服务。腾讯云HAI(High-performance AI)平台...

52410

推理强化模型中思维链的本质

立委

DeepSeek R1 的出圈是近来最大热度的焦点。它不仅在数学、代码等强推理能力上追平了 OpenAI 头部推理模型 o 系列,而且在语言文字的创造力和模仿力...

508100

图解DeepSeek-R1大模型—推理型大语言模型(LLM)的训练秘密

AIGC部落

DeepSeek-R1 是人工智能(AI)进步历程中最新的一次令人瞩目的重大进展。对于机器学习(ML)研发社区来说,它是一个重要的发布版本,原因包括:

52620

​解密prompt系列48. DeepSeek R1 & Kimi 1.5长思维链 - RL Scaling

风雨中的小七

春节前DeepSeek R1和Kimi1.5炸翻天了,之前大家推测的O1的实现路径,多数都集中在MCTS推理优化,以及STaR等样本自优化方案等等,结果Deep...

54820

DeepSeek R1和V3在推理上的差异

aaronwjzhao

谦合益邦云 | AI框架工程师 (已认证)

DeepSeek R1和DeepSeek V3的模型结构一致,参数量也一致,R1是基于V3做强化学习得来的。R1主要的创新点都用在训练过程,推理过程和V3是一样...

1.7K31

LLM安全专题

h3110_w0r1d

攻击者能让LLM运行任意代码(通常是Python),这种情况可能发生在使用工具增强的LLM中,LLM能够将代码发送给解释器执行。

7310

DeepSeek:技术领导者需要知道的五件事

大脸猫不吃鱼

DeepSeek 给商界和科技界带来了冲击。在地缘政治紧张和股价暴跌的新闻头条中,准确了解 DeepSeek 的新 AI 模型对企业意味着什么(从长期 AI 战...

11210

LLM 与 BiomedCLIP 携手提升生物医学图像 Prompt 学习的准确性与泛化性 !

AIGC 先锋科技

最近,视觉语言模型(VLMs)如CLIP在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将VLMs应用到下游任务仍具有挑战性,因为它们的准确性通常依赖...

9210

技术分析:DeepSeek 如何改进 Transformer 架构?

大脸猫不吃鱼

DeepSeek 最近发布了 DeepSeek v3,这是目前在开放权重模型中基准性能表现最好的模型,同时还发布了一份技术报告,详细描述了该模型的训练过程。令人...

43430

高性价比、开源开放——DeepSeek 让科学家兴奋不已

大脸猫不吃鱼

LLM 训练数十亿个文本样本,将它们剪切成单词部分(称为标记),并学习数据中的模式。这些关联允许模型预测句子中的后续标记。但 LLM 容易捏造事实,这种现象称为...

10210

遇见DeepSeek之(1):初识

TVP官方团队

腾讯 | 产品经理 (已认证)

作者简介:刘世民,腾讯云TVP,公众号“世民谈云计算”作者,云计算技术专家,曾就职于华为、IBM、海航等公司,专注于云计算。曾在海航集团易航科技担任云服务事业群...

85720
领券