首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

人人都可以用大模型!英伟达官方本地部署方案chat with RTX 解析

现在,只要你有一张英伟达显卡,你就能用上本地大模型,而且是用上最高的推理速度。

春节期间,英伟达悄悄官方发布了一款工具,chat with RTX.

安装这个,目前需要NVIDIA GeForce RTX 30 或 40 系列 GPU 或 NVIDIA RTX Ampere 或 Ada 代 GPU,至少 8GB 显存。

下载包非常庞大,有35G之大。

解压之后就会发现,那么庞大是因为内置了两个模型,llama2-13B和mistral-7B。这里提供的都是经过量化的版本。

在功能上,Chat with RTX 支持多种文件格式,包括文本、pdf、doc/docx 和 xml。只需将应用程序指向包含文件的文件夹,它就会在几秒钟内将它们加载到库中。此外,您可以提供 YouTube 播放列表的 URL,该应用程序将加载播放列表中视频的转录,使您能够查询它们涵盖的内容。

安装和正常安装程序一样,需要等待比较长的时间,之后点击桌面图标就可以启动。程序启动好了会弹出浏览器。

不过,大部分网上教程没有告诉你的是,这里面程序还会访问huggingface,这个全球最大的模型站目前处于不可访问状态,你需要一点魔法才能访问并正常启动。

启动好了是这个样子的:

和其他本地大模型基于pytorch推理或者llama-cpp推理不同,chat with RTX的推理框架是业界最强的,毕竟是老黄家出品,发挥显卡最大效用是必须的。

在我的3090上,mistral的推理能够轻松跑到60token/s。速度毋庸置疑是极快的。

不过,它也有不小的缺点,最大的问题是,官方提供模型目前只有llama2-13B和mistral-7B。这两个模型比较老旧了,对中文支持也不好,因此对中国用户来说,意义不是很大。

而且由于架构不同,还不能直接用开源模型,需要另外转换一下量化;如果需要使用中文比较强的模型,需要英伟达后期改造或者由开源社区提供第三方支持。

其实,chat with RTX这套玩意早就在GitHub开源。它的另一个名字是 trt-llm-rag-windows。大家访问下面的网址开源获得更多信息:

https://github.com/NVIDIA/trt-llm-rag-windows

我们之前也介绍了其他本地大模型工具。有兴趣可以参考。它们的硬件要求甚至可以低至无需显卡。

AI工具资源

大模型测评

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oev0zCnarETxN_xvxGkMnlPA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券