语音工具包游戏_游戏语音工具包_is游戏语音 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

【重磅】微软开源深度学习认知工具包：增加 Python 绑定，支持增强学习

【新智元导读】微软今天开源微软认知工具包（Microsoft Cognitive Toolkit）的升级版本，CNTK 升级版。本次升级最大的亮点在于增加了 Python 绑定。另外，新版本工具包跨服务器处理能力也得到了提升，能有效加快处理速度，并支持增强学习的实践。 AI WORLD 2016 世界人工智能大会开场视频（完整版）亮点： CNTK 现在支持全新的C++ 和 Python APIs 提供新的Python例子和课程支持快速的R-CNN算法 CNTK Evaluation 数据库有改进，其中包

07

NVIDIA 发布最新版本的TAO工具包，进一步简化和加速AI模型创建

今天，NVIDIA 宣布正式发布最新版本的TAO 工具包。作为 NVIDIA 训练、适应和优化 (TAO) 框架的低代码版本，该工具包可简化和加速语音和视觉 AI 应用程序的 AI 模型的创建。借助 TAO，开发人员可以利用迁移学习的力量来创建针对许多用例进行定制和优化的生产就绪模型。其中包括检测缺陷、翻译语言或管理流量，而无需大量数据。此版本通过新的预训练视觉和语音模型提高了开发人员的工作效率。它还包括关键的新功能，例如 ONNX 模型权重导入、REST API 和 TensorBoard 集成。

04

您找到你想要的搜索结果了吗？

是的

没有找到

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

现在，图灵奖得主、AI三巨头之一Yoshua Bengio领衔的研究机构Mila宣布，要联合英伟达、杜比、三星、PyTorch官方、IBM AI研究院等公司和机构，做一个新的开源一体化语音工具包：SpeechBrain。

02

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

现在，图灵奖得主、AI三巨头之一Yoshua Bengio领衔的研究机构Mila宣布，要联合英伟达、杜比、三星、PyTorch官方、IBM AI研究院等公司和机构，做一个新的开源一体化语音工具包：SpeechBrain。

02

纯PyTorch语音工具包SpeechBrain开源，Kaldi：我压力有点大

语音处理技术的进步，是人工智能改变大众的生活的重要一环。深度学习技术的兴起，也让这一领域近年来得到了长足的发展。在过往，该领域的主要方法是为不同的任务开发不同的工具包，对于使用者来说，学习各个工具包需要大量时间，还可能涉及到学习不同的编程语言，熟悉不同的代码风格和标准等。现在，这些任务大多可以用深度学习技术来实现。

04

亚马逊宣布Transcribe支持实时音频转录功能

在新推出的Comprehend服务之后，亚马逊今天宣布其自动语音识别（ASR）服务Amazon Transcribe获得对实时转录的支持。

02

Jan 14 云+科技快报来看看今天有什么火爆内容

TensorFlow 2.0 预览版上线了！近日，谷歌 AI 团队成员 Martin Wicke 在社交网络上向大家发布了这一最流行深度学习框架的「开发者预览版」，该版本又被称为「Nightly 版」——因为框架会每晚更新。这不是一个稳定的版本，但开发者们可以尝试使用，熟悉新版本的特性。

资源 | 横向对比5大开源语音识别工具包，CMU Sphinx最佳

选自svds 作者：Cindi Thompson 机器之心编译参与：李泽南、Smith 目前开源世界里存在多种不同的语音识别工具包，它们为开发者构建应用提供了很大帮助。这些工具各有哪些优劣？数据科学

06

微软开源人工智能工具包CNTK，解锁深度学习技术

人工智能系统现在已经成为一个科技产业都在追求的重点项目之一，并且被广泛地运用到各行各业，不管是PC还是手机，不管是汽车还是机器人，都在尝试融入更多的人工智能系统，希望可以做到和人顺畅地进行交流。微软目前推出的Win 10系统，除了性能上的进步，还有一大亮点就是Cortana或Skype可以进行人机交流来完成指令操作。不少电脑小白都会对此表示惊异，现在的系统竟然已经可以做到这样的智能了。对此，微软做出了一个举动，26日正式宣布已经在Github上向外部开发人员开源了它的人工智能工具包CNTK（Comput

05

某 SDK 被爆盗取用户数据，500 余款 App 惨遭谷歌下架

外媒 BleepingComputer 报道称，中国一款广告软件开发工具包（SDK）正在盗取用户数据并将其发送到中国公司的服务器，这款 SDK 由“个信”公司开发，并嵌入到 500多个合法应用程序中。

06

微软黄学东：微软在很多AI领域领先Google | AI NEXT

AI 研习社按：本月 18 日，由美中技术与创新协会（Association of Technology and Innovation，ATI）主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括：微软首席 AI 科学家邓力，微软院士黄学东，Uber 深度学习负责人 Luming Wang 等。华人之外，还有亚马逊 Alexa 首席科学家 Nikko Strom，微软小娜架构师 Savas Parastatidis 等业内知名专家。大会主题是“探索 AI 的潜力，把 AI 技术应用于实用

06

AI NEXT | 微软黄学东：微软在很多AI领域领先Google

AI科技评论按：本月 18 日，由美中技术与创新协会（Association of Technology and Innovation，ATI）主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括：微软首席 AI 科学家邓力，微软院士黄学东，Uber 深度学习负责人 Luming Wang 等。华人之外，还有亚马逊 Alexa 首席科学家 Nikko Strom，微软小娜架构师 Savas Parastatidis 等业内知名专家。大会主题是“探索 AI 的潜力，把 AI 技术应用于

NVIDIA 发布全新预训练模型，迁移学习工具包3.0全面公开可用

6月24日，英伟达在CVPR 2021期间发布了全新预训练模型，并宣布迁移学习工具包（TLT）3.0全面公开可用。

04

用这个Python库，训练你的模型成为下一个街头霸王！

从世界瞩目的围棋游戏 AlphaGo，近年来，强化学习在游戏领域里不断取得十分引人注目的成绩。自此之后，棋牌游戏、射击游戏、电子竞技游戏，如 Atari、超级马里奥、星际争霸到 DOTA 都不断取得了突破和进展，成为热门的研究领域。

03

如何实现简单的UDP端口扫描工具

UDP（User Datagram Protocol，用户数据报协议）是一种无连接的传输层协议，属于OSI参考模型的一部分。它主要用于不要求分组顺序到达的传输中，分组传输顺序的检查与排序由应用层完成，提供面向事务的简单不可靠信息传送服务。UDP协议使用底层的互联网协议来传送报文，同IP一样提供不可靠的无连接数据包传输服务。它不提供报文到达确认、排序、及流量控制等功能。

01

语音识别的一些开源项目整理

工具特点：支持多个语音任务，支持多个ASR端到端系统，当前最活跃的语音开源社区，是第三代端到端ASR系统的典型代表。

03

星际争霸界也出了位“带路党”，当年的冠军正帮谷歌AI击败人类

李杉若朴发自凹非寺量子位出品 | 公众号 QbitAI 📷 1990年代，十几岁的Oriol Vinyals（维纽斯）成了西班牙《星际争霸》全国冠军。他之所以玩这款科幻策略游戏，是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说：“没上大学之前，这款游戏就让我在生活中怀有更强的战略思维。” 他的战略思维的确获得了回报：在巴塞罗那学习了电信工程和数学之后，维纽斯去过微软研究院实习，获得了加州大学伯克利的计算机博士学位，接着加入谷歌大脑团队，开始从事人工智能开发工作，然后又转入谷歌旗

04

Facebook开源多款AI工具，支持游戏、翻译等

近日，Facebook 在年度开发者大会 F8 上宣布开源多款 AI 工具，除了 PyTorch、Caffe 等深度学习框架之外，此次开源的还包括 DensePose（可用于人体姿态估计）、Translate（可翻译 48 种语言）、ELF（可通过游戏来教机器推理）等诸多 Facebook 内部使用的库和模型。

01

Jan 11 云+科技快报来看看今天有什么火爆内容

最近，北大开源了一个中文分词工具包，它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词误差率高达 18.55% 和 20.42，而北大的 pkuseg 只有 3.25% 与 4.32%。

老黄、皮衣、厨房、显卡全是假的，英伟达在GTC演讲上骗过了所有人

机器之心报道编辑：泽南老黄在 GTC 上演讲的厨房其实是虚拟世界，连黄仁勋本人也可以是虚拟的，这样的他还有 21 个…… 谁能知道，在最近几次 GTC 大会上演讲的黄仁勋也有 AI 合成的。这个秘密直到昨天晚上才由英伟达自己揭晓。在英伟达，去年投入顶会的论文可能会成为今年上线的产品。在 8 月 10 日晚，英伟达在计算机图形顶级会议 ACM SIGGRAPH 2021 上介绍了一系列新品和技术。在这其中，Omniverse 是最有未来感的一个，它是英伟达提出的 3D 仿真模拟和协作平台，通过这一工

03

德州农工大学开源RLCard：帮你快速训练会斗地主的智能体

RLCard 是一个用于牌类游戏强化学习研究的开源工具包，其接口简单易用，支持多种牌类环境。RLCard 的目标是在强化学习与非完美信息博弈之间搭建桥梁，推动强化学习研究在多智能体、高维状态和动作空间以及稀疏奖励领域的进步。作者在论文中概述了 RLCard 的关键组件，探讨了其设计原则并简要介绍了接口，还给出了对这些环境的评估。

01

微软亚洲研究院刘铁岩博士：迎接深度学习的「大」挑战（文末赠书）

AI 科技评论按：本文根据刘铁岩博士在中国人工智能学会 AIDL 第二期人工智能前沿讲习班＊机器学习前沿所作报告《迎接深度学习的「大」挑战》编辑整理而来，发文前已得到刘铁岩博士的亲自删减校正。刘铁岩

04

腾讯IEG开源GAME AI SDK：自动化测试吃鸡、MOBA类游戏

近日，腾讯互娱（IEG）开源了一款名为 GAME AI SDK 的自动化测试平台，该平台封装好了多种工具供开发者使用，目前支持的游戏类型有跑酷类、吃鸡类、射击类、MOBA 类等。

03

支持文字和语音指令，AI实时自动编程，OpenAI升级版Codex终于面世了

机器之心报道机器之心编辑部前段时间，OpenAI与GitHub联合发布的AI代码补全工具GitHub Copilot吸引了广大程序员的关注，其背后的技术支撑OpenAI Codex也浮出了水面。今日，OpenAI正式发布了基于自身API的改进版Codex，不仅可以根据用户输入的文字指令执行相应任务，更能够输入语音命令。 6 月 30 日，OpenAI 和 GitHub 联合发布了新的 AI 代码补全工具 GitHub Copilot，并展示了技术预览版。该工具可以在 VS Code 编辑器中自动完成代码

01

亚马逊要把Alexa装进更多第三方硬件，推出开发工具

陈桦编译整理量子位出品 | 公众号 QbitAI 亚马逊希望Alexa智能助手进入更多设备，而不仅只适用于自主硬件。因此，亚马逊今天发布了开发者工具，帮助商用设备厂商开发集成Alexa的产品。

04

语音界传奇Dan Povey突遭美霍普金斯大学解雇，计划转投中国

语音界大佬、开源语音识别系统 kaldi 的开发者 Dan Povey 被约翰・霍普金斯大学 (JHU) 解雇了。

03

TRTC Android端开发接入学习之什么是TRTC(二)

TRTC 即 Tencent RTC，中文名是腾讯实时音视频，源自 QQ 音视频团队，是基于 QQ 十几年来的音视频技术积累，在腾讯云上部署售卖的 RTC 云服务，致力于帮助企业快速搭建低成本、高品质、跨平台的实时音视频互动能力的完整解决方案。功能上支持语音通话、视频通话、连麦互动、美颜滤镜、旁路推流、视频录制、混流转码、交互式白板、桌面分享、截图、鉴黄等，并提供微信小程序、 WebRTC、APP、PC、MAC 等全平台互联互通能力，很好地应用于云游戏、云会议、快直播、实时音视频 PaaS 服务等领域。

06

有人拿当今最强GPU A6000和3090做了性能对比，网友：都买不起

机器之心报道编辑：泽南又到了人们喜闻乐见的显卡对决时间。虽然如今人们用来训练深度学习的 GPU 大多出自英伟达，但它旗下的产品经常会让人在购买时难以抉择。去年 12 月，英伟达将专业图形加速显卡产品线更新至安培架构，其中最高端的 RTX A6000 是最被人关注的一款。在基本规格上，A6000 基于完整的 GA102 GPU 核心打造，内建 10752 个 CUDA 核心和第三代 Tensor Core，单精度浮点性能达到了 38.7 TFLOPs。它的显存容量达到 48GB，类型是 GDDR6

04

第七代微软小冰现身：史上最大升级，订制私人AI不是梦

而就在昨天，微软(亚洲)互联网工程院在北京召开微软小冰年度发布会，重磅推出了第七代微软小冰——这是史上最大跨度的一次升级。

02

最适合人工智能的编程语言：JAVA人工智能程序编程

可用于开发人工智能项目的程序编程语言列表，包括Python，POP-11，C ++，MATLAB，Java，Lisp和Wolfram语言。在本文中，你会了解Java程序编程如何与人工智能配合使用。

09

安装和使用NVIDIA TAO工具包总是容易出错的地方，太多人中招

通过为给定的用例构建自定义 AI 解决方案将 AI 从研究转移到生产是一项艰巨的任务。因为收集和注释训练需要大量数据，而实现最先进的深度学习模型需要大量的领域经验，其中数据科学家需要运行许多迭代和实验以达到代表性模型。这是非常耗时的。最后，训练后的模型必须针对高吞吐量和低延迟推理进行优化。为了快速跟踪 AI 从概念到生产，最实用和可扩展的方法是，使用自定义数据微调现有的预训练 AI 模型。这有助于解决许多行业用例的激增和多样性问题，并支持快速原型设计和定制以满足任何环境的要求。 NVIDIA TAO To

02

有趣的Github项目万里挑一 !（附论文、项目链接）

本文带你快速 get 每个精选Github项目的亮点和痛点，时刻紧跟 AI 前沿成果。 01 InsightFace #基于MXNet的人脸识别开源库 InsightFace 是 DeepInsig

02

SafeDK分析报告称SDK太多让开发者“眼花缭乱”,整合平台迎新风口

编辑导语对于开发者来说 SDK（软件开发工具包）当然是好事，这些工具包为移动 app 开发者实现分析、货币化、互动等功能提供了极大的便利。但是当 SDK 太多时好事却有可能变成坏事—根据 SafeDK 近日发布的首份移动 SDK 分析报告，这会引发 “SDK 疲劳”。对于开发者来说SDK（软件开发工具包）当然是好事，这些工具包为移动app开发者实现分析、货币化、互动等功能提供了极大的便利。但是当SDK太多时好事却有可能变成坏事—根据SafeDK近日发布的首份移动SDK分析报告，这会引发“SDK疲劳”

05

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了，腾讯游戏知几AI团队和西工大ASLP组联合出品

机器之心专栏作者：腾讯游戏知几AI团队，西北工业大学音频、语音与语言处理研究组（ASLP@NPU）近日，腾讯游戏知几AI团队与西工大ASLP组联合发布了基于 WenetSpeech 1 万小时数据训练的中文版 Wav2vec 2.0 和 HuBERT 模型。 Wav2vec 2.0 [1]，HuBERT [2] 和 WavLM [3] 等语音预训练模型，通过在多达上万小时的无标注语音数据（如 Libri-light ）上的自监督学习，显著提升了自动语音识别（Automatic Speech Recogn

03

Python作为机器学习语言的老大，跟在它后面的语言都是谁？

Python 由于本身的易用优势和强大的工具库储备，成为了在人工智能及其它相关科学领域中最常用的语言之一。尤其是在机器学习，已然是各大项目最偏爱的语言。

00

苹果WWDC：不搞AI优先，先用AI来加速你的手机应用

今天的WWDC，除了年度硬件、系统更新，大家更为关注的是苹果是否也去选择“AI优先”的战略，因为它的老对手微软和Google早已经走上这条路了。两个半小时的Keynote下来，库克一句都没有提到AI相关的战略，而只是在最后公布了剧透已久的“重磅”新品：Siri智能音箱——HomePod。 HomePod 智能音箱很显然，这两年来面对Amazon Echo与Google Home在家用语音交互服务上的攻城略地，苹果是坐不住了。HomePod就此诞生：它的外观取材于苹果2013年发布的Mac

05

微信跳一跳可以用 Python 刷分；macOS 再曝重大安全漏洞，或许已存在 15 年

本文介绍了 macOS 系统上 2018 年出现的多个安全漏洞，包括可以执行任意代码的漏洞和可以导致系统崩溃的漏洞。同时，文章还介绍了 Facebook 开源语音识别工具包 wav2letter，以及腾讯开源的高性能通用频率控制组件 libwxfreq。

【比竞争对手快3倍】微软官方发布CNTK 2.0，增加 Python 和 Keras 支持

【新智元导读】微软今天发布了深度学习工具包CNTK的2.0版本，新版本增加了支持 Keras 的 CNTK 后端，Java API，模型评估的 Spark 支持，模型压缩等新功能，微软全球技术院士黄学东称其比同类产品快3倍。微软今天发布微软认知工具包（Microsoft Cognitive Toolkit）的2.0版本。这是一个开源的深度学习工具包，以前的名字是 CNTK，是微软对应竞争对手的TensorFlow，Caffe 和 Torch 的工具。它的第一个版本已经在速度方面不输许多竞争产品，而新的2.

08

使用NeMo让你的文字会说话-深度学习在语音合成任务中的应用 | 英伟达NLP公开课

语音合成技术可以将任何文字信息转换成标准流畅的语音且进行朗读，相当于给机器装了一张人工合成的“嘴巴”。它是涉及多个学科，如声学、语言学、数字信号处理和计算机科学的一个交叉学科。英伟达NeMo是一个用于构建先进的对话式AI模型的工具包，它内置集成了自动语音识别 (ASR)、自然语言处理 (NLP) 和语音合成 (TTS)的模型及方法，方便调用先进的预训练模型、快速完成对话式AI中各类子任务。我们可以通过NeMo快速、方便地实现文字与语音之间的转换，让我们的文字会说话！ 7月28日，第3期英伟达x量子位NL

01

「假黄仁勋」刷屏之后，英伟达官方辟谣：只有14秒是虚拟的

机器之心报道机器之心编辑部不要太嗨了，GTC 2021 那场发布会，你看到的厨房中的老黄不是假的，发布的显卡也不是假的。在近期召开的计算机图形顶级会议 ACM SIGGRAPH 2021 上，英伟达介绍了自研的 3D 仿真模拟和协作平台 Omniverse，并在昨天放出了「合成版老黄」的打造过程。消息在极短的时间内引发了科技圈的轰动，很多人甚至在 Youtube、哔哩哔哩等平台反复回放今年 4 月 GTC 老黄的 Keynote 视频，企图分辨「真假黄仁勋」。毕竟一旦接受了「发布会中的老黄

02

快讯 | Facebook开源语音识别工具包wav2letter

今日凌晨，Facebook AI研究中心宣布开源语音识别工具包wav2letter！这是一款简单高效的端到端自动语音识别（ASR）系统，wav2letter 实现的是论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架构。 16年11月，Facebook的三位研究者Ronan Collobert, Chri

06

MAME：在这里，你可以用Python玩任何街机游戏

这是一个允许你在几乎任何街机游戏中训练你的强化学习算法的Python库，它目前在Linux系统上可用。通过这个工具包，你可以定制算法逐步完成游戏过程，同时接收每一帧的数据和内部存储器地址值以跟踪游戏状态，以及发送与游戏交互的动作。

04

【译】Java NLP 类库概览

自然语言处理（NLP）是人工智能（AI）的一个分支，使计算机能够像人类一样理解书面或口头语言。在这个 AI 革命时代，NLP 具有多样化的应用。在本教程中，我们将探讨 Java 中不同的 NLP 库，以及如何使用 Apache OpenNLP 和 Stanford CoreNLP 实现一些 NLP 任务。

01

教AI打星际2也不难，试试暴雪和DeepMind的工具包 | 附论文+代码

安妮编译整理量子位出品 | 公众号 QbitAI 去年年底，DeepMind宣布想教会AI智能体玩《星际争霸2》（后简称星际2），计划创造出能击败人类玩家的智能体。 9个多月后这事又有了进展。今

自动语音识别进阶，怎么少得了边缘计算｜ Q推荐

随着世界变得越来越数字化，会话式人工智能成为了实现人与计算机交互的一种常见方式。而 Nemo 正是为对「对话式人工智能」感到好奇的开发者而打造，它是基于 PyTorch 的开源工具包，允许开发者快速构建实时自动语音识别（ASR）、自然语言处理（NLP）和文本到语音（TTS）应用程序的模型。对话式 AI 塑造了人机交互的路径，使其更易于访问，且有助于弥合机器与人类之间的鸿沟。

03

python玩转街机游戏，操作亲民！

这是一个允许你在几乎任何街机游戏中训练你的强化学习算法的Python库，它目前在Linux系统上可用。通过这个工具包，你可以定制算法逐步完成游戏过程，同时接收每一帧的数据和内部存储器地址值以跟踪游戏状态，以及发送与游戏交互的动作。

03

AI开学第一课！CMU深度学习秋季课程开课了，PPT & 视频同步

以深度神经网络为代表的“深度学习”系统越来越多地在各种AI任务中大显神威，包括语言理解、语音和图像识别、机器翻译、规划、甚至游戏和自动驾驶。因此，掌握深度学习方面的专业知识已经逐渐从高深莫测转变为现在许多高级学术问题中必须掌握的背景知识，并且深度学习人才在就业市场中也有很大的优势。

01

PyTorch+Kaldi、专注E2E语音识别，腾讯AI Lab开源轻量级语音处理工具包PIKA

Kaldi 是一个开源的语音识别系统，由 Daniel Povey 主导开发，在很多语音识别测试和应用中广泛使用。但它依赖大量脚本语言，且核心算法是用 C++ 编写的，对声学模型的更新和代码调试带来一定难度。

01

GitHub项目：自然语言处理领域的相关干货整理

自然语言处理（NLP）是计算机科学，人工智能，语言学关注计算机和人类（自然）语言之间的相互作用的领域。本文作者为NLP初学者整理了一份庞大的自然语言处理领域的概览。选取的参考文献与资料都侧重于最新的深度学习研究成果。这些资源能为想要深入钻研一个NLP任务的人们提供一个良好的开端。指代消解 https://github.com/Kyubyong/nlp_tasks#coreference-resolution 论文自动评分论文：Automatic Text Scoring Using Neural Net

04

前沿人工智能技术，日益改变我们生活

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。那么人工智能，现在的那些技术是很前沿的呢？ 📷 人工智能 1，自然语言生成：利用计算机数据生成文本。目前应用于客户服务、报告生成以及总结商业智能洞察力。 2，语音识别：将人类语音转录和转换成对计算机应用软件来说有用的格式。目前应用于交互式语音应答系统和移动应用领域。 3，虚拟代理：弗雷斯特公司声称，“虚拟代理可谓是媒体界目前竞相

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭