专栏首页相约机器人滴滴开源DELTA:AI开发者可轻松训练自然语言模型

滴滴开源DELTA:AI开发者可轻松训练自然语言模型

桔妹导读:8月2日消息,自然语言处理领域顶级会议ACL2019在意大利弗洛伦萨继续召开。会上滴滴正式宣布开源基于深度学习的语音和自然语言理解模型训练平台DELTA,以进一步帮助AI开发者创建、部署自然语言处理和语音模型,构建高效的解决方案,助力NLP应用更好落地。

DELTA是滴滴第22个开源项目。自然语言处理模型和语音模型是很多AI系统与用户交互的接口,此次滴滴正式这一开源深度学习模型训练框架,旨在进一步降低开发者创建、部署自然语言处理系统和语音模型的难度。

滴滴自然语言处理首席科学家Kevin Knight在ACL2019现场

DELTA主要基于TensorFlow构建,能同时支持NLP(自然语言处理)和语音任务及数值型特征的训练。整合了包括文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等重要算法模型,形成一致的代码组织架构,整体包装统一接口。

用户准备好模型训练数据,并指定好配置Configuration,模型训练pipeline可以根据配置进行数据处理,并选择相应的任务和模型,进行模型训练。在训练结束之后,自动生成模型文件保存。该模型文件形成统一接口,可以直接上线使用,快速产品化,能让从研究到生产变得更容易。

值得注意的是,除可支持多种模型的训练,DELTA还支持灵活配置,开发者可基于DELTA搭建成多达几十种的复杂的模型;此外,DELTA在多种常用任务上提供了稳定高效的benchmark,用户可以简单快速的复现论文中的模型的结果,同时也可以在此基础上扩展新的模型。在模型构建完成后,用户可以使用DELTA的部署流程工具,迅速完成模型上线。从论文到产品部署无缝衔接。

目前AI开发者可登陆Github(https://github.com/didi/delta)查看DELTA的详细介绍和源代码,利用DELTA加快实验进度,部署用于文本分类、命名实体识别、自然语言推理、问答、序列到序列文本生成、语音识别、说话人验证、语音情感识别等任务的系统。用户亦可在滴滴的开源平台上(https://didi.github.io/)获取更多滴滴开源项目的相关信息。

实际上,NLP和语音技术在滴滴已经有广泛的应用。通过大量应用了包括自然语言处理、深度学习、知识图谱、语音、推荐等技术,滴滴自建了基于AI的智能客服系统,能利用人工智能技术辅助人工客服,提高人工客服处理问题的效率,并减少人工客服在重复、简单问题上的处理量。此外,基于语音识别以及自然语言理解技术,滴滴也在构建驾驶员语音助手,日本和澳洲的滴滴司机即将能用语音直接“免接触”接单。而在未来,这一语音助手也将支持全方位的语音交互服务,包括影音娱乐、信息查询、车内环境调节,到乘客通信、客服,甚至是加油、充电或维保服务。与此同时,滴滴也在积极推进相关能力的开放,通过提供一站式自然语言处理工具、一站式机器人开放平台,帮助行业合作伙伴更好地实现AI应用落地。

关于滴滴开源▬

滴滴近一年开源了 26 个项目,总 Star 数近 4 万,多达 130 多位贡献者参与,覆盖移动开发、中间件、系统软件、前端、研发工具、测试框架、人工智能、智慧交通、大数据、运维监控、小程序等技术领域。在未来,滴滴也会继续秉承「拥抱开放、合作共赢、创造价值」的理念,在开源的道路上继续砥砺前行,和更多的社区开发者一起为中国开源做出积极贡献。

https://github.com/didi

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-08-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【NLP】自然语言处理专栏上线,带你一步一步走进“人工智能技术皇冠上的明珠”。

    每次与行外之人谈起自然语言处理(Natural Language Process,NLP),对方往往都是一片茫然。因此,常常感到很苦恼,如何跟一个从未接触过NL...

    用户1508658
  • 深入机器学习系列之Word2Vec

    word2vec的核心是神经网络的方法,采用 CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和 Skip-Gram 两种模型,通过...

    数据猿
  • 最新剑桥《AI全景报告》出炉:中国发表机器学习学术研究超过美国

    2019年即将过去一半,剑桥大学的两位研究人员近日推出了本年度的State AI 2019全景报告。

    AI科技大本营
  • BERT:我训练再久一点、数据量再大一点,就能重返SOTA

    上个月,XLNet 在 20 项任务上全面超越了 BERT,创造了 NLP 预训练模型新记录,一时风光无两。但现在,XLNet 刚屠榜一个月,剧情再次发生反转:...

    机器之心
  • 【NLP】 NLP中应用最广泛的特征抽取模型-LSTM

    本篇介绍在NLP中应用最为广泛的特征抽取模型LSTM。详细介绍LSTM提出的由来及其模型结构,并由此分析了LSTM能够解决RNN不能够对长序列进行处理和训练的原...

    用户1508658
  • 【研究院】浅析小米与它的AI生态

    前几次带领大家一起看了微软亚洲研究院、百度、华为和字节跳动,今天带领大家走进一个“年轻”的AI研究院——小米AI研究院。

    用户1508658
  • 什么是 XLNet ? 为什么它的性能优于 BERT?

    XLNet:NLP领域中一个新的预训练方法,相比BERT可以显著提高20个任务的准确率。

    AI研习社
  • 【研究院】中国最强的AI Lab,是腾讯AI Lab吗?

    腾讯AI Lab是腾讯企业级人工智能实验室,于2016年4月在深圳成立,目前其在中国和美国有70位世界级科学家及300余位经验丰富的应用工程师。

    用户1508658
  • 技惊四座的BERT全靠数据集?大模型霸榜或许是学界的灾难

    然而最近台湾国立成功大学的一篇论文却给人们泼了冷水。这一研究认为,BERT 至少在 ARCT 任务上利用了不正常的统计线索。正是这些统计线索,BERT 才能获得...

    机器之心
  • 把BERT拉下神坛!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平

    实验说明,BERT是依靠数据集里“虚假的统计学线索 (Spurious Statistical Cues) ”来推理的。

    量子位

扫码关注云+社区

领取腾讯云代金券