首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

难道对方不是真人么?接近0延时与多模态智能体语音、视频通话,提供在线体验地址!

今天分享的是一款开源项目,目前看到第二成熟的实时互动多模态智能体,语音交流过程非常流畅。

未来电话或视频里和你自然沟通的可能就是这样的东西,细思极恐!

注意:该项目可以方便的修改智能体执行任务逻辑,可以针对你自己的业务场景进行定制。

综合介绍

TEN Agent是一个开源的实时多模态智能体框架,集成了OpenAI Realtime API和RTC,支持多种功能如天气查询、网络搜索、视觉处理和RAG(检索增强生成)。该框架旨在提供高性能、低延迟的音视频交互解决方案,适用于复杂的AI应用场景。

功能列表

实时多模态交互 :支持音频、视频和文本的实时处理和交互。

OpenAI Realtime API集成 :提供低延迟的语音到语音对话功能。

RTC AI噪声抑制 :通过AI算法消除噪声,提升音频质量。

天气查询 :集成天气查询功能,提供实时天气信息。

网络搜索 :支持通过网络搜索获取信息。

视觉处理 :支持图像识别和处理功能。

RAG功能 :通过检索增强生成技术,利用本地文档提供答案。

多语言支持 :支持多种编程语言的扩展开发,如C++、Go、Python等。

跨平台支持 :兼容Windows、Mac、Linux和移动设备。

使用帮助

安装流程

准备环境 :

确保已安装Docker和Docker Compose。

获取Agora App ID和App Certificate(如果在Agora控制台中启用了证书)。

获取OpenAI API密钥,以及Deepgram ASR和FishAudio TTS的API密钥。

配置环境变量 :

在项目根目录下,使用cp .env.example .env命令创建.env文件。

打开.env文件,填写所需的API密钥和配置。

启动容器 :

在项目根目录下运行docker compose up命令启动容器。

或者使用docker compose up -d命令以分离模式启动容器。

构建智能体 :

打开一个新的终端窗口,进入容器并构建智能体。

构建完成后,在端口8080上运行服务器:make run-server。

访问界面 :

在浏览器中打开localhost:3000,开始使用TEN Agent。

打开另一个标签页,访问localhost:3001,使用Graph Designer创建、连接和编辑扩展。

功能操作指南

实时多模态交互 :

通过集成的OpenAI Realtime API,实现低延迟的语音到语音对话。

使用RTC的AI噪声抑制功能,确保音频质量清晰稳定。

天气查询 :

在界面中输入所需查询的城市名称,即可获取实时天气信息。

网络搜索 :

在搜索框中输入关键词,系统将通过网络搜索获取相关信息。

视觉处理 :

上传图像文件,系统将自动进行图像识别和处理。

RAG功能 :

通过检索增强生成技术,输入问题,系统将利用本地文档提供答案。

多语言支持 :

支持使用C++、Go、Python等多种编程语言进行扩展开发。

跨平台支持 :

兼容Windows、Mac、Linux和移动设备,用户可以在不同平台上无缝使用TEN Agent。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O3GEWMYc-O5mq-y2S9BikYVg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券