前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NVIDIA NeMo:一个开源工具包,可通过三行代码开发最先进的会话式AI模型

NVIDIA NeMo:一个开源工具包,可通过三行代码开发最先进的会话式AI模型

作者头像
代码医生工作室
发布2020-10-23 16:05:53
1.7K0
发布2020-10-23 16:05:53
举报
文章被收录于专栏:相约机器人相约机器人

NVIDIA的开源工具包NVIDIA NeMo(神经模型)是朝着对话型AI发展迈出的革命性一步。它基于PyTorch,允许人们快速构建,训练和微调对话式AI模型。

随着世界变得越来越数字化,会话式人工智能是实现人与计算机之间通信的一种方式。诸如自动消息传递,语音识别,语音聊天机器人,文本到语音等一些引人入胜的技术背后的技术集。它广泛地包括了AI研究的三个领域:自动语音识别(ASR),自然语言处理(NLP)和语音合成(或文字转语音,TTS)。

对话式AI塑造了人机交互的路径,使其更易于访问和令人兴奋。诸如NVIDIA NeMo之类的会话式AI的最新进展有助于弥合机器与人类之间的鸿沟。

NVIDIA NeMo由两个子部分组成:NeMo Core和NeMo Collections。NeMo Core通常处理所有模型,而NeMo Collections处理模型的特定领域。在Nemo的语音集合(nemo_asr)中,您将找到用于语音识别,命令识别,说话者识别,说话者验证和语音活动检测的模型和各种构建块。NeMo的NLP集合(nemo_nlp)包含用于任务解答,标点符号,命名实体识别等任务的模型。最后,在NeMo的语音合成(nemo_tts)中,您将找到几个频谱图生成器和声码器,这将使您生成合成语音。

NeMo中有三个主要概念:模型,神经模块和神经类型。

  • 模型包含有关训练,微调,神经网络实现,令牌化,数据扩充,基础架构详细信息(如GPU节点数等),优化算法等所有必要信息。
  • 神经模块是一种编码器-解码器体系结构,由负责不同任务的概念性构建块组成。它代表了神经网络的逻辑部分,并构成了描述模型及其训练过程的基础。集合具有许多神经模块,可以在需要时重用。
  • 神经模块的输入和输出使用神经类型进行输入。神经类型是一对,其中包含有关张量的轴布局及其元素的语义的信息。每个神经模块都有input_types和output_types属性,这些属性描述此模块接受的输入类型以及返回的输出类型。

即使NeMo基于PyTorch,它也可以有效地与其他项目一起使用,例如 PyTorch Lightning 和 Hydra。与Lightning的集成使使用Tensor Core更加容易地以混合精度训练模型,并且可以将训练扩展到多个GPU和计算节点。它还具有日志记录,检查点,过拟合检查等功能。Hydra还允许对脚本进行参数化,以使其井井有条。它使为用户简化日常任务变得更加容易。

GitHub:

https://github.com/NVIDIA/NeMo#tutorials

网址:

https://developer.nvidia.com/nvidia-nemo

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档