前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >HugggingFace 推理 API、推理端点和推理空间使用介绍

HugggingFace 推理 API、推理端点和推理空间使用介绍

原创
作者头像
luckpunk
发布于 2023-09-17 08:31:38
发布于 2023-09-17 08:31:38
2.9K00
代码可运行
举报
运行总次数:0
代码可运行

接触 AI 的同学肯定对HuggingFace 有所耳闻,它凭借一个开源的 Transformers 库迅速在机器学习社区大火,为研究者和开发者提供了大量的预训练模型,成为机器学习界的 GitHub。在 HuggingFace 上我们不仅可以托管模型,还可以方便地使用各种模型的 API 进行测试和验证,部署属于自己的模型 API 服务,创建自己的模型空间,分享自己的模型。本文将介绍 HuggingFace 的推理 API、推理端点和推理空间的使用方法。

HuggingFace 推理 API

在 HuggingFace 托管的模型中,有些模型托管之后会提供推理 API,如果我们想快速验证模型是否可以满足我们的需求,可以使用这些 API 进行测试,下面以这个模型为例Salesforce/blip-image-captioning-base进行介绍,该模型可以通过图片生成英文描述。

页面小组件

推理 API 有两种使用方式,一种是在模型页面的右侧找到推理 API 的小组件页面,初始界面如下图所示:

我们可以在这个页面中上传图片,然后就可以看到模型进行推理运行,等一会后推理结果就出来了,如下图所示:

推理结果为:"a dog wearing a santa hat and a red scarf"(一只狗戴着圣诞老人的帽子和红色的围巾)

页面小组件的方式是 HuggingFace 自动帮助模型创建的,具体的信息可以参考这里[2]

代码调用

另外一种方式是通过代码对推理 API 进行调用,在右侧的Deploy菜单中选择Inference API,如下图所示:

打开菜单后可以看到几种代码调用方式,分别有 Python, JavaScript 和 Curl:

这里我们选择 Curl 方式来进行调用,我们可以直接复制界面上的 Curl 命令,注意其中包含了我们的 API token,所以不要随意分享出去,然后在终端上执行命令,就可以看到预测结果了:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$ curl https://api-inference.huggingface.co/models/Salesforce/blip-image-captioning-base \
    -X POST \
    --data-binary '@dogs.jpg' \
    -H "Authorization: Bearer hf_xxxxxxxxxxxxxxxxxxxxxx"

# 输出结果
[{"generated_text":"a dog wearing a santa hat and a red scarf"}]%

HuggingFace 推理端点(Endpoint)

推理 API 虽然方便,但推理 API 一般用于测试和验证,由于速率限制,官方不推荐在生产环境中使用,而且也不是所有模型都有提供推理 API。如果想要在生产环境部署一个专属的推理 API 服务,我们可以使用 HuggingFace 的推理端点(Endpoint)。

推理端点的部署也比较简单,首先在Deploy菜单中选择Inference Endpoints,如下图所示:

打开菜单后可以看到新建推理端点的界面,如下图所示:

  1. 首先是服务器的选择,先选择云服务厂商,目前只有 AWS 和 Azure 两种,再选择机器区域节点。
  2. 然后是服务器的配置,HuggingFace 默认会给出模型的最低推理配置,如果我们想要更高的配置,可以点击2中的下拉框进行选择。
  3. 接着是推理端点的安全等级,有 3 种选择,分别是ProtectedPublicPrivaate
    • Pubulic:推理端点运行在公共的 HuggingFace 子网中,互联网上的任何人都可以访问,无需任何认证。
    • Protected:推理端点运行在公共的 HuggingFace 子网,互联网上任何拥有合适 HuggingFace Token 的人都可以访问它。
    • Privacy:推理端点运行在私有的 HuggingFace 子网,不能通过互联网访问,只能通过你的 AWS 或 Azure 账户中的一个私有连接来使用,可以满足最严格的合规要求。
  4. 最后显示的是服务器的价格,按小时算,根据配置的不同,价格也会有所不同。HuggingFace API 是免费的,但 HuggingFace 的推理端点是要收费的,毕竟是自己专属的 API 服务。因为推理端点部署是收费的,所以在部署之前需要在 HuggginFace 中添加付款方法,一般使用国内的 Visa 或 Master 卡就可以了。

信息确认无误后点击Create Endpoint按钮创建推理端点,创建成功后可以进入推理端点的详情页面看到如下信息:

其中Endpoint URL就是部署好的推理端点地址,我们可以跟调用推理 API 一样的方式来使用它,示例代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$ curl https://your-endpoint-url \
    -X POST \
    --data-binary '@dogs.jpg' \
    -H "Authorization: Bearer hf_xxxxxxxxxxxxxxxxxxxxxx"

HuggingFace 模型空间(Space)

HuggingFace 推理端点是部署 API 服务,但是如果我们想要分享自己的模型,让别人可以直接在浏览器中使用模型的功能,这时候就需要使用 HuggingFace 的模型空间(Space)了。

要部署一个模型空间,首先在模型的Deploy菜单中选择Spaces,如下图所示:

选择菜单后可以看到空间创建的引导界面,如下图所示:

界面中显示了启动模型的 Python 脚本,然后我们点击Create new Space按钮进入空间的创建页面,如下图所示:

在模型创建页面中,我们需要设置以下信息:

  • 首先要指定空间的名称,一般以模型的名称命名。
  • 然后选择空间的 SDK,目前有StreamlitGradioDockerStatic 四种。
    • Streamlit:Streamlit 是一个可以帮助我们快速创建数据应用的 Python 库,可以在浏览器中直接使用模型,它相比Gradio可以支持更加丰富的页面组件,界面也更加美观。
    • Gradio:Gradio 也是一个编写 GUI 界面的 Python 库,相对Streamlit来说,它的 GUI 功能虽然比较少,但它的优势在于简单易用,一般演示的 Demo 用它就足够了。
    • Docker:推理空间也可以使用 Docker 容器进行部署,它内部支持了 10 种模版。
    • Static:静态页面,我理解是包括 Html、Js、Css 等前端资源来作为页面展示。
  • 然后选择空间硬件,HuggingFace 为每个空间提供了一个免费的配置: 2 核 CPU 16G 内存,用这个配置部署推理空间是免费的,如果你想要更高的配置,也可以选择付费的配置。
  • 最后是安全等级,有PublicPrivate两种,Public 是公开的,任何人都可以访问,但只有你的组织成员可以修改,Private 是私有的,只有你的组织成员可以访问。

设置完后点击Create Space按钮就开始创建推理空间了,创建完成后会自动跳转到空间的页面,如下图所示:

如果推理空间的安全等级设置为 Public,你就可以将空间的 URL 分享给其他人使用了。想查看 HuggingFace 推理空间更多的信息,可以参考 https://huggingface.co/docs/hub/models-widgets

如果推理空间的安全等级设置为 Public,你就可以将空间的 URL 分享给其他人使用了。想查看 HuggingFace 推理空间更多的信息,可以参考 https://huggingface.co/docs/hub/spaces 。

总结

本文介绍了 HuggingFace 的推理 API、推理端点和推理空间的使用方法,推理 API 是免费的,使用 HuggingFace 自建的 API 服务,推理端点是部署自己专属的 API 服务,但需要收取一定的费用。推理空间是部署模型的 Web 页面,可以直接在浏览器中使用模型的功能,可以用于演示和分享模型,有一定的免费额度。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Elasticsearch 开放推理 API 新增 Hugging Face 原生分块支持
通过 Elasticsearch 的开放推理 API,你可以使用 Hugging Face 的 Inference Endpoints 在 Elasticsearch 外部进行推理。这使你能够利用 Hugging Face 的可扩展基础设施,包括在 GPU 和 AI 加速器上进行推理的能力。生成的 Hugging Face 嵌入的使用能力作为第一个开放推理 API 集成在 Elasticsearch 8.11 中引入,从那时起,我们一直在努力更新它,增加了更强大的功能,使你能够以更少的努力获得更好的结果。
点火三周
2024/09/15
1310
Elasticsearch 开放推理 API 新增 Hugging Face 原生分块支持
介绍 Gradio 与 Hugging Face
我们可以使用 Gradio 库为我们的模型构建演示。Gradio 允许您完全使用 Python 为任何机器学习模型构建、自定义和共享基于 Web 的演示。使机器学习模型变得可交互和易于使用。
叶庭云
2024/05/25
4310
介绍 Gradio 与 Hugging Face
快捷部署清华大模型 ChatGLM2-6B,一键搞定 HuggingFace Space 空间
“分享一个简单的部署 ChatGLM2-6B 模型到 Huggingface Space 在线空间的方法。”
技术人生黄勇
2024/07/19
2890
快捷部署清华大模型 ChatGLM2-6B,一键搞定 HuggingFace Space 空间
腾讯的这个算法,我搬到了网上,随便玩!
大家好,之前向大家介绍并跑通了腾讯开源的老照片修复算法(AI 黑科技,老照片修复,模糊变高清),同时我也提到官方提供的3个线上试玩版体验都不好。所以我微调了一下官方 Demo,使用最新的V1.3预训练模型且输出whole-image,大家先感受一下:
统计学家
2022/04/11
1.6K0
腾讯的这个算法,我搬到了网上,随便玩!
ChatGLM2-6B使用入门
ChatGLM2-6B模型的中文效果较好,相比ChatGLM-6B模型有了进一步的优化,可以本地部署尝试。
码之有理
2023/10/08
1.2K0
基于LMDeploy部署大模型和量化
大模型具有庞大的参数量,内存开销大,7B模型仅权重就需要14+G内存,采用自回归生成token,需要缓存Attention 的k/v带来巨大的内存开销;动态shape,请求参数不固定,Token逐个生成,且数量不定,因此在部署上都存在一些挑战。
阿提说说
2024/03/01
1.4K0
基于LMDeploy部署大模型和量化
《书生大模型实战营第3期》进阶岛 第6关: MindSearch CPU-only 版部署
MindSearch是一个开源的人工智能搜索引擎框架,其性能与Perplexy.AI Pro相当。部署你自己的困惑.ai风格的搜索引擎!
流川疯
2024/08/24
3350
《书生大模型实战营第3期》进阶岛 第6关: MindSearch CPU-only 版部署
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。通过 Xorbits Inference,可以轻松地一键部署你自己的模型或内置的前沿开源模型
汀丶人工智能
2024/08/17
4.2K0
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
教你快速上手Xinference分布式推理框架
Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。
码之有理
2023/09/12
16.9K0
Gradio入门到进阶全网最详细教程一:快速搭建AI算法可视化部署演示(侧重项目搭建和案例分享)
运行程序后,打开 http://localhost:7860 即可看到网页效果。左边是文本输入框,右边是结果展示框。Clear按钮用于重置网页状态,Submit按钮用于执行处理程序,Flag按钮用于保存结果到本地。
汀丶人工智能
2023/04/25
11.7K0
Gradio入门到进阶全网最详细教程一:快速搭建AI算法可视化部署演示(侧重项目搭建和案例分享)
人手AutoGPT!让ChatGPT自选10万+AI模型,HuggingFace官方出品
---- 新智元报道   编辑:编辑部 【新智元导读】ChatGPT调用众多开源AI模型,让HuggingFace给实现了。 前段时间,浙大微软团队提出的HuggingGPT在整个科技圈爆火。 这个大模型协作系统利用ChatGPT作为控制器,随意调用HuggingFace中的各种模型,以实现多模态任务。 让ChatGPT当「老板」,已经成为许多人看好的方向。 这不,该来的还是来了...... 全球最火的AI社区HuggingFace官方出品「Transformers Agent」,通过控制10万多个
新智元
2023/05/22
4870
人手AutoGPT!让ChatGPT自选10万+AI模型,HuggingFace官方出品
一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」
机器之心报道 编辑:张倩、蛋酱 通过 Transformers Agents,你可以控制 10 万多个 Hugging Face 模型完成各种多模态任务。 从聊天到编程再到支持各种插件,强大的 ChatGPT 早就不是一个简单的对话助手,而是朝着 AI 界的「管理层」不断前进。 3 月 23 号,OpenAI 宣布 ChatGPT 开始支持各类第三方插件,比如著名的理工科神器 Wolfram Alpha。借助该神器,原本鸡兔同笼都算不准的 ChatGPT 一跃成为理工科尖子生。Twitter 上许多人评论说
机器之心
2023/05/16
5960
一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」
Gradio入门到进阶全网最详细教程[二]:快速搭建AI算法可视化部署演示(侧重参数详解和案例实践)
相关文章:Gradio入门到进阶全网最详细教程[一]:快速搭建AI算法可视化部署演示(侧重项目搭建和案例分享)
汀丶人工智能
2023/05/01
2.2K0
Gradio入门到进阶全网最详细教程[二]:快速搭建AI算法可视化部署演示(侧重参数详解和案例实践)
超详细!10分钟部署ChatGLM2-6B,效果测试:不愧是中文榜单第一
 今年6月份清华大学发布了ChatGLM2,相比前一版本推理速度提升42%。最近,终于有时间部署测试看看了,部署过程中遇到了一些坑,也查了很多博文终于完成了。本文详细整理了ChatGLM2-6B的部署过程,同时也记录了该过程中遇到的一些坑和心得,希望能帮助大家快速部署测试。另外:作者已经把模型以及安装依赖全部整理好了,获取方式直接回复:「chatglm2-6b」
ShuYini
2023/09/25
6.4K10
超详细!10分钟部署ChatGLM2-6B,效果测试:不愧是中文榜单第一
huggingface 和相关库 - plus studio
Hugging Face是一个专注于自然语言处理(NLP)的开源平台,它旨在让NLP变得更加易用和普及。Hugging Face推出了多个库,例如Transformers,Datasets,Tokenizers和Accelerate,它们分别提供了预训练的模型,大规模的数据集,高效的分词器和分布式训练的工具。Hugging Face还拥有一个活跃的社区,其中有数千名研究人员,开发者和爱好者共同交流和贡献NLP的最新进展。
plus sign
2024/02/28
2760
huggingface 和相关库 - plus studio
详解几种常见本地大模型个人知识库工具部署、微调及对比选型(2)
这里首先介绍的是大模型侧的工具安装部署实践,至于为什么先提大模型侧后提知识库侧呢?这是因为大模型通常是知识库操作和应用的基础与核心,是提供智能决策的引擎。它们构建了理解和生成文本、图像、语音等多模态反应的基础能力,是整个智能应用的心脏,同时,由于这次主题是本地大模型个人知识库,所以大模型的安装、配置、优化和部署是首要步骤,也是确保知识库工具能够顺畅运行的基石。
zhouzhou的奇妙编程
2024/06/12
3.9K0
腾讯云HAI部署DeepSeek结合Ollama API搭建智能对话系统
本文将详细介绍如何在腾讯云HAI平台上部署DeepSeek模型,并配置使用Ollama API服务以实现对外部请求的支持。通过对前期准备、部署流程、API服务配置及使用的详细阐述,希望能为读者提供一个全面且实用的指南,助力AI应用的高效开发和部署。
Front_Yue
2025/02/10
6915
腾讯云HAI部署DeepSeek结合Ollama API搭建智能对话系统
盘点 三款高可用的机器学习模型 web页面化的工具(一)
笔者只是抛砖引玉,把三款看到的在本篇简单的介绍。 如果有其他更好的欢迎留言推荐,后续笔者会对这三款做一一的学习。
悟乙己
2022/11/21
1.6K0
盘点 三款高可用的机器学习模型 web页面化的工具(一)
使用 Docker 和 HuggingFace 实现 NLP 文本情感分析应用
在继续分享“干燥、有趣”的向量数据库实战[1]内容之前,我们来聊一篇简单有趣的内容:如何使用 Docker 和 HuggingFace 现成的模型,快速实现一个 NLP 文本情感分析应用,支持中英文内容的情感快速分析。
soulteary
2023/03/05
1.6K0
使用 Docker 和 HuggingFace 实现 NLP 文本情感分析应用
推理1760亿参数的BLOOMZ,性能时延仅3.7秒 | 最“in”大模型
随着大语言模型 (Large Language Model, LLM) 的规模越来越大,在生产环境部署和使用这些模型来进行推理也变得越来越具挑战性。为应对这些挑战,无论硬件还是软件,都经历了多次创新。
量子位
2023/09/08
4570
推理1760亿参数的BLOOMZ,性能时延仅3.7秒 | 最“in”大模型
推荐阅读
Elasticsearch 开放推理 API 新增 Hugging Face 原生分块支持
1310
介绍 Gradio 与 Hugging Face
4310
快捷部署清华大模型 ChatGLM2-6B,一键搞定 HuggingFace Space 空间
2890
腾讯的这个算法,我搬到了网上,随便玩!
1.6K0
ChatGLM2-6B使用入门
1.2K0
基于LMDeploy部署大模型和量化
1.4K0
《书生大模型实战营第3期》进阶岛 第6关: MindSearch CPU-only 版部署
3350
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
4.2K0
教你快速上手Xinference分布式推理框架
16.9K0
Gradio入门到进阶全网最详细教程一:快速搭建AI算法可视化部署演示(侧重项目搭建和案例分享)
11.7K0
人手AutoGPT!让ChatGPT自选10万+AI模型,HuggingFace官方出品
4870
一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」
5960
Gradio入门到进阶全网最详细教程[二]:快速搭建AI算法可视化部署演示(侧重参数详解和案例实践)
2.2K0
超详细!10分钟部署ChatGLM2-6B,效果测试:不愧是中文榜单第一
6.4K10
huggingface 和相关库 - plus studio
2760
详解几种常见本地大模型个人知识库工具部署、微调及对比选型(2)
3.9K0
腾讯云HAI部署DeepSeek结合Ollama API搭建智能对话系统
6915
盘点 三款高可用的机器学习模型 web页面化的工具(一)
1.6K0
使用 Docker 和 HuggingFace 实现 NLP 文本情感分析应用
1.6K0
推理1760亿参数的BLOOMZ,性能时延仅3.7秒 | 最“in”大模型
4570
相关推荐
Elasticsearch 开放推理 API 新增 Hugging Face 原生分块支持
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文