NVIDIA的开源工具包NVIDIA NeMo(神经模型)是朝着对话型AI发展迈出的革命性一步。它基于PyTorch,允许人们快速构建,训练和微调对话式AI模型。
随着世界变得越来越数字化,会话式人工智能是实现人与计算机之间通信的一种方式。诸如自动消息传递,语音识别,语音聊天机器人,文本到语音等一些引人入胜的技术背后的技术集。它广泛地包括了AI研究的三个领域:自动语音识别(ASR),自然语言处理(NLP)和语音合成(或文字转语音,TTS)。
对话式AI塑造了人机交互的路径,使其更易于访问和令人兴奋。诸如NVIDIA NeMo之类的会话式AI的最新进展有助于弥合机器与人类之间的鸿沟。
NVIDIA NeMo由两个子部分组成:NeMo Core和NeMo Collections。NeMo Core通常处理所有模型,而NeMo Collections处理模型的特定领域。在Nemo的语音集合(nemo_asr)中,您将找到用于语音识别,命令识别,说话者识别,说话者验证和语音活动检测的模型和各种构建块。NeMo的NLP集合(nemo_nlp)包含用于任务解答,标点符号,命名实体识别等任务的模型。最后,在NeMo的语音合成(nemo_tts)中,您将找到几个频谱图生成器和声码器,这将使您生成合成语音。
NeMo中有三个主要概念:模型,神经模块和神经类型。
即使NeMo基于PyTorch,它也可以有效地与其他项目一起使用,例如 PyTorch Lightning 和 Hydra。与Lightning的集成使使用Tensor Core更加容易地以混合精度训练模型,并且可以将训练扩展到多个GPU和计算节点。它还具有日志记录,检查点,过拟合检查等功能。Hydra还允许对脚本进行参数化,以使其井井有条。它使为用户简化日常任务变得更加容易。
GitHub:
https://github.com/NVIDIA/NeMo#tutorials
网址:
https://developer.nvidia.com/nvidia-nemo