首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

GLM-4开源,多模态性能比肩GPT4V

GLM-4开源,多模态性能比肩GPT4V

前几天,智谱AI发布了他们的最新力作——GLM-4-9B,这是GLM-4系列的开源旗舰,以其卓越的性能在多个维度超越了Llama-3-8B。

图片

GLM-4-9B-Chat,这款人类偏好对齐的版本,不仅精通多轮对话,还具备网页浏览、代码执行、自定义工具调用以及长文本推理等高级功能,支持最大128K的上下文处理能力。此次更新还扩展了多语言支持,覆盖包括日语、韩语、德语在内的26种语言,同时推出了支持1M上下文长度的GLM-4-9B-Chat-1M模型,以及基于GLM-4-9B的多模态模型GLM-4V-9B,后者在1120*1120高分辨率下展现了中英双语多轮对话的非凡能力,在多模态评测中超越了业界标杆。

图片使用GLM-4 Demo的三种模式

GLM-4 Demo提供了三种模式,以满足不同场景下的需求:

All Tools: 具备完整工具调用能力的对话模式,原生支持网页浏览、代码执行、图片生成,并允许自定义工具扩展。

文档解读: 支持上传文档,利用GLM-4-9B的长文本处理能力进行深入理解。

多模态: 利用GLM-4V的多模态理解能力,上传图像进行深入分析和对话。

All Tools模式

本模式继承了ChatGLM3-6B的工具注册流程,代码、绘图、联网能力已自动集成,用户仅需配置相应的Key即可启用。在对话模式中,用户可以在侧边栏调整top_p、temperature等参数,以微调模型行为。模型将自主决定何时调用工具,且默认隐藏工具调用结果,但用户可随时展开查看。

工具调用示例

模型不仅能进行网页搜索和Python代码执行,还能连续调用多个工具,如通过浏览器工具搜索获取数据后,调用Python工具执行Matplotlib绘图。

绘图示例

如果提供了智谱开放平台API Key,模型还能调用CogView进行图像生成。

图像生成示例自定义工具

用户可以通过在tool_registry.py中注册新的工具来扩展模型的能力。使用@register_tool装饰器即可轻松注册。工具声明中,函数名称代表工具名,docstring为工具说明,参数使用Annotated标注类型、描述和是否必须。

@register_tool

def get_weather(city_name: Annotated[str, '城市名称', True]) -> str:

"""

获取`city_name`未来一周的天气情况

"""

...

自定义工具注册示例文档解读模式

用户可以上传多种格式的文档,如pptx、docx、pdf等,利用GLM-4-9B的长文本处理能力进行深入理解。请注意,本模式不支持工具调用和系统提示词,且长文本可能需要较高的显存。

文档解读示例多模态模式

在多模态模式下,用户可以上传图像,利用GLM-4V的多模态理解能力进行深入分析和对话。请注意,本模式必须使用glm-4v-9b模型,不支持工具调用和系统提示词。模型一次只能理解一张图片,如需更换图片,需开启新的对话,且图像分辨率需为1120 x 1120。

多模态模式示例

通过这些模式,GLM-4-9B为用户提供了一个强大、灵活且易于使用的AI平台,无论是学术研究还是商业应用,都能发挥其巨大的潜力。

整合包使用

学术Fun将上述工具制作成一键启动包,点击即可使用,避免大家配置环境出现各种问题,下载地址(电脑浏览器访问): https://xueshu.fun/4775/,在此页面右侧区域点击下载!

注意电脑配置如下:

windows 10/11 64位操作系统

8G显存以上英伟达显卡

解压,最好不要有中文路径,解压后,如下图所示,双击启动.exe文件运行

图片

即可在浏览器使用啦

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OTem8e6OpBlt6_i_l9oYKHXg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券