acoustics - 腾讯云开发者社区

一年一度的全球顶级语音大会INTERSPEECH 2020论文评选结果已经揭晓，我们的论文《Phase-aware music super-resolution using generative adversarial networks》（译为基于GAN网络的相位感知的音乐超分辨率）成功被收录其中。这是TME首次参与INTERSPEECH，本文在音乐音质修复领域取得的成果得到了全球专业评委的认可。欢迎INTERSPEECH的各位参与者关注2020年10月29号周四20:30-21:30，我们于"Sp

您找到你想要的搜索结果了吗？

是的

没有找到

图像去马赛克：双线性插值VS高质量线性插值

SP Modules Review Contents

Speech production involves three systems in the body: the respiratory system, the phonation system, and the articulation system (Figure 1.2).

音乐识别探索之路|音色识别亮相IJCNN，UAE惊艳ICASSP

一年一度的国际知名会议2021论文评选结果已经相继揭晓，我们的论文《Large-scale singer recognition using deep metric learning: an experimental study》成功被国际神经网络联合大会（International Joint Conference on Neural Networks，简称IJCNN）收录，《Learning Audio Embeddings with User Listening Data for Content-

远算云平台-MSC系列软件与Ansys系列软件的对比

HEXAGON的MSC系列软件是一款多功能的有限元软件，应用领域包括航天航空，汽车，电子，土木等，在全世界拥有大量的用户，今天就来介绍一下MSC系列软件与Ansys系列软件的对比

2019年视觉里程计VIO新进展

1 2019年,Visual-Inertial Mapping with Non-Linear Factor Recovery.

AI 精彩视频剪辑：战术竞技类游戏直播

简介直播平台每天都会产生海量的游戏直播视频，同时有很多内容作者从直播视频中剪辑精彩片段，进行二次创作。然而精彩视频剪辑工作，需要人工浏览视频并找出精彩片段，用视频编辑软件进行剪辑，耗费大量时间和精力。为了解决这个问题，我们尝试用 AI 完成精彩视频剪辑的工作，并借助 TGL腾讯游戏玩家创作联盟实现视频一键多渠道（看点、企鹅号、今日头条）发布。 DEMO: 绝地求生：拉风龙双排M416精彩刚枪片段绝地求生：萌妹子主播四排决赛圈吃鸡精彩集锦此外，剪辑视频带有 AI 识别的标签，比如：武器AK、双人

深度学习500问——Chapter06：循环神经网络（RNN）（4）

是上下文单元。上下文单元节点与隐藏层中节点的连接是固定的，并且权值也是固定的。上下文节点与隐藏层节点一一对应，并且值是确定的。

夺得两项第一、三篇论文被收录丨贝壳AI团队亮相顶级国际会议ICASSP 2022

近日，国际声学、语音与信号处理领域顶级会议ICASSP举办的 2022 ADD挑战赛落下帷幕，贝壳人工智能技术中心语音团队从全球百余支队伍中脱颖而出，在“语音攻防对抗”赛道“生成”和“检测”两项任务中均斩获桂冠。 ICASSP（International Conference on Acoustics, Speech and Signal Processing）是由IEEE主办的信号处理及其应用方面的顶级会议，在全球具有广泛而权威的学术影响力。其中，语音深度合成鉴别挑战赛(The First Audio D

听声音做钥匙？！慢放开锁音轨，黑客就能破解常用门锁，从33万种密钥中锁定3种

你熟悉的黑客是不是这样的？比如上个月，黑客造成推特史上最严重的安全事故，马斯克奥巴马等多位大V账号被黑；或者像8月初英特尔的那起数据泄露事故，足足20GB数据被黑客泄漏。

CNN 在语音识别中的应用

本文介绍了语音识别技术中的端到端模型、基于CTC的序列模型、基于序列学习的注意力机制模型、基于3D卷积神经网络的语音识别系统等。其中，端到端模型可以直接从原始音频数据中学习到针对语音识别的抽象表示，具有较好的可扩展性和鲁棒性；而基于CTC的序列模型则通过连接主义学习的方法，将CTC定义的序列映射问题转化为神经网络中的参数优化问题，进一步提高了语音识别的准确率；基于序列学习的注意力机制模型则借鉴了语言学中的注意力机制，通过对输入序列进行加权处理，进一步提高了模型的识别准确率；基于3D卷积神经网络的语音识别系统则利用3D卷积核对输入序列进行卷积处理，提取出序列中的特征信息，进一步提高了模型的识别准确率。

SRZoo--深度学习图像超分辨率工具

今天要介绍的是 Github 上一个基于深度学习的超分辨率工具--SRZoo，并且它还提供了多个预训练模型。Github 地址：

深度学习能学会幽默吗？TED视频可能有点难

论文标题：UR-FUNNY: A Multimodal Language Dataset forUnderstanding Humor

网易云信神经网络音频降噪算法：提升瞬态噪声抑制效果，适合移动端设备

基于信号处理的传统音频降噪算法对于 Stationary Noise（平稳噪声）有比较好的降噪效果。但是对于 Non-stationary Noise（非平稳噪声），特别是 Transient Noise（突发噪声）降噪效果较差，而且有些方法对于语音也有较大的损伤。随着深度学习在 CV（Computer Vision）上的广泛应用，基于神经网络的音频降噪算法大量涌现，这些算法很好的弥补了传统算法对于 Non-stationary Noise 降噪效果不好的问题，在 Transient Noise 上也有较大的提升。

金融/语音/音频处理学术速递[6.25]

【1】 Robust Decisions for Heterogeneous Agents via Certainty Equivalents 标题：基于确定性等价的异构Agent鲁棒决策

中国Nature第一人，居然是清朝的他

---- 新智元报道来源：网络编辑：小匀【新智元导读】天天为发Nature的你，知道我国Nature第一人是谁吗？其实早在140年前，Nature上就第一次出现了中国人的名字。能够在Nature、Science等顶刊上发文，几乎是每个科研人员所追求的事情，而又有多少人为能够留名Nature 而熬秃了头？但你知道谁是中国Nature第一人么？早在140年前的清朝，就有中国人就在 Nature 上发表了第一篇论文——《考证律吕说》。他叫徐寿，是这篇题为Acoustics in Ch

金融/语音/音频处理学术速递[12.15]

【1】 The Oracle estimator is suboptimal for global minimum variance portfolio optimisation 标题：对于全局最小方差投资组合优化，Oracle估计器是次优的链接：https://arxiv.org/abs/2112.07521

脑机头条第11期| 清华和中国工程院联合发布"AI 2000人工智能全球最具影响力学者"

AI 2000 人工智能全球最具影响力学者榜单（以下称为 AI 2000）旨在未来10年通过AMiner学术数据在全球范围内遴选2000位人工智能学科最有影响力、最具活力的顶级学者。AMiner.cn 为本榜单提供数据支持。AMiner.cn 由清华大学研发，检索了19世纪以来全球1亿3千余万学者发表的2亿7千万余篇学术论文数据，已吸引全球220个国家/地区1000多万独立IP访问，数据下载量230万次，年度访问量超过1100万。

时间卷积网络TCN：时间序列处理的新模型

这篇文章回顾了基于TCN的解决方案的最新创新。我们首先介绍了一个运动检测的案例研究，并简要回顾了TCN架构及其相对于传统方法的优势，如卷积神经网络(CNN)和递归神经网络(RNN)。然后，我们介绍了一些使用TCN的应用，包括改进交通预测，声音事件定位和检测，以及概率预测。

【深度学习】深度学习

深度学习的起源深度学习（Deep Learning）是机器学习中一个非常接近AI的领域，其动机在于建立、模拟人脑进行分析学习的神经网络。深度学习属于无监督学习。深度学习的概念源于人工神经网络的研究。深度学习是相对于简单学习而言的，目前多数分类、回归等学习算法都属于简单学习，其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受到一定制约。深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从

任务式对话中的自然语言理解

导读：随着人工智能技术的发展，智能对话的应用场景越来越多，目前已经成为了研究的热点。天猫精灵，小度小度，腾讯叮当，这些智能助手都是智能对话在业界的应用。智能助手的对话方式可分为三种：任务式对话 ( 用户输入指令，智能助手执行指令任务 )，问答式对话 ( 用户输入问题，智能助手回复答案 )，闲聊式对话。那么智能助手如何理解用户的指令，最终完成指令任务呢？任务型语音对话的处理流程主要包括：语音识别，自然语言理解，对话管理、对话生成，语音合成 ( 图1 )。要理解用户的指令，就需要对用户输入进行自然语言理解，也就是对转换为文本的用户输入进行分析，得到用户的意图和关键信息。在图1中，这一部分由绿色虚线圈出，主要包括领域 ( domain )、意图 ( intent ) 和槽 ( slot ) 的预测。本文主要介绍这一部分，即领域识别、意图识别和槽抽取的主流方法和研究进展。

金融/语音/音频处理学术速递[8.17]

【1】 Causal Impact Of European Union Emission Trading Scheme On Firm Behaviour And Economic Performance: A Study Of German Manufacturing Firms 标题：欧盟排污权交易计划对企业行为和经济绩效的因果影响：一项对德国制造企业的研究链接：https://arxiv.org/abs/2108.07163

博客 | 一文看懂任务型对话中的对话策略学习（DPL）

前面写了对话系统中的SLU之领域分类和意图识别、槽填充、上下文LU和结构化LU、对话状态追踪（DST）、以及NLG，今天更新任务型对话系统中的DPL。DPL也叫DPO（对话策略优化），跟DST一样，DPL也是对话管理（DM）的一部分，而DM是任务型对话中至关重要的一部分。说个非严格的对比：如果把对话系统比作计算机的话，SLU相当于输入，NLG相当于输出设备，而DM相当于CPU（运算器+控制器）。

图像修复简介

在实际应用中，图像经常被噪声腐蚀。这些噪音是镜头上的灰尘或水滴，或者是旧照片的刮擦，或者是人为绘制的图像，或者图像的一部分已损坏。文献中有两种主要的图像恢复方法：

金融/语音/音频处理学术速递[9.2]

【1】 The Potential of Sufficiency Measures to Achieve a Fully Renewable Energy System -- A case study for Germany 标题：充分措施实现完全可再生能源系统的潜力--以德国为例链接：https://arxiv.org/abs/2109.00453

ACM MM 2024：基于多尺度融合的脑控说话人提取方法

作者：范存航，张晶晶，张宏玉，项旺，陶建华，李心慧，易江燕，隋典伯，吕钊*（通讯作者）

126篇殿堂级深度学习论文分类整理从入门到应用（上）

█ 如果你有非常大的决心从事深度学习，又不想在这一行打酱油，那么研读大牛论文将是不可避免的一步。而作为新人，你的第一个问题或许是：“论文那么多，从哪一篇读起？” 本文将试图解决这个问题——文章标题本来是：“从入门到绝望，无止境的深度学习论文”。请诸位备好道具，开启头悬梁锥刺股的学霸姿势。开个玩笑。但对非科班出身的开发者而言，读论文的确可以成为一件很痛苦的事。但好消息来了——为避免初学者陷入迷途苦海，昵称为 songrotek 的学霸在 GitHub 发布了他整理的深度学习路线图，分门别类梳理了新入门者最

动态 | AI近10年21个子领域高引学者（AI-10 Most Influential Scholars ）

近10年，人工智能发展迅速，如今该领域已经涵盖了机器学习、自然语言处理、计算机视觉、Web与知识工程、机器人、信息检索、人机交互、语音识别、数据挖掘、图形学、可视化、虚拟现实、多媒体、物联网、计算经济学、计算理论、信息系统、计算机安全和数据库等诸多研究方向。

现在，耳朵也要进入元宇宙了

提到AR/VR设备你会想到什么？赛博朋克风的画面，还是虚拟与现实叠加带来的科幻感？当大家的目光仍聚焦于视觉交互层面时，业内一场有关听觉层面的变革已经悄然兴起。在谈论这场听觉革新之前，我们先来感受一下XR时代的“声临其境”。注：戴上耳机体验更好哦这是国内人机交互产品平台公司Rokid近日发布的一组应用于AR眼镜的6DoF空间声场技术Demo视频。不同于传统双声道、立体音带来的听觉体验，6DoF空间声场技术可以在混合现实中模拟声源与人耳之间因空间位置变化、有无遮挡物等带来的声音强弱与方向的变化，从而

双目立体匹配步骤详解

来源：https://blog.csdn.net/rs_lys/article/details/83302323

业界 | 华为推出新型HiSR：移动端的超分辨率算法

机器之心发布作者：Mr. AI 近日，华为推出了 HiSR 超分辨率技术，该模型借助第一款人工智能手机芯片 Kirin 970 和深度学习算法将低分辨率图片转化生成高清图片，并在移动端实现了快速预览高清图片的效果。本文简要介绍了华为 HiSR 模型的结构与效果。前言超分辨率算法是一种将低分辨率图片重建为尺寸更大、像素更多、质量更高的计算机视觉技术。最常见的传统图像处理算法是双三次插值（Bicubic Interpolation），该方法能创造出比双线性插值更平滑的图像边缘，且速度也较快。但是 Bicu

大会 | 思必驰-上海交大实验室14篇ICASSP 2018入选论文解读

AI 科技评论按：为期 5 天的 ICASSP 2018，已于当地时间 4 月 20 日在加拿大卡尔加里（Calgary）正式落下帷幕。ICASSP 全称 International Conference on Acoustics, Speech and Signal Processing（国际声学、语音与信号处理会议），是由 IEEE 主办的全世界最大的，也是最全面的信号处理及其应用方面的顶级学术会议。今年 ICASSP 的大会主题是「Signal Processing and Artificial Intelligence: Challenges and Opportunities」，共收到论文投稿 2830 篇，最终接受论文 1406 篇。其中，思必驰-上海交大智能人机交互联合实验室最终发表论文 14 篇，创国内之最。

实操|如何进阶深度学习工程师（下篇）

这里所定义的中阶选手，是深度学习理论基础扎实，实操方面尝试扩展深度学习更多应用场景的侠客。由此，从初阶→中阶，基本流程保持不变，变化的是每个步骤的深入程度。

中央音乐学院招音乐AI方向博士生，玩一把代码与音符齐飞？

去年的中国好声音上，清华大学博士生宿涵直接将 AI 写的歌改编后唱了出来，引起网友一片赞叹。然而，近期国内一所高校公布了研究“AI+音乐”领域博士生的招收指标，引发了网友们不同意见的讨论。

腾讯多媒体实验室亮相GBA-IAS 2019声学论坛，深度分享音频前沿技术

12月16日，由香港科技大学深圳研究院主办的GBA-IAS 2019声学论坛（GREATER BAY AREA -INTERNATIONAL ACOUSTICS SYMPOSIUM），在深圳正式召开。随着虚拟现实技术的发展，音视频行业对3D音频等技术的需求也更加强烈，本此论坛以“感知与声音”为主题，来自国内外众多知名大学、科研机构的多名心理学、声学、信号处理和计算机科学的专家出席，对各自团队的研究进展和新思路进行了分享与交流。在音视频领域积累多年的腾讯多媒体实验室团队受邀参会，腾讯多媒体实验室高级总监商世

腾讯Turing Lab论文入选ICASSP，图像AI研究成果获国际认可！

近日，全球顶级信号处理技术会议 ICASSP 2022 公布了论文入选名单。由王君乐博士带领的腾讯Turing Lab实验室论文——《针对手机游戏的主观与客观视频质量评价》（Subjective and Objective Quality Assessment of Mobile Gaming Video）、《引入用户共识学习的美学质量预测》（Considering User Agreement in Learning to Predict the Aesthetic Quality）被大会接收。 ICAS

图像可搜索加密（一）：问题与方案概览

在之前的文章中，我们对文本数据的可搜索加密方案[1]进行过简单介绍。如今，除了文本搜索之外，图像搜索也日益成为一项不可或缺的技术。随着智能设备的快速发展，图像数据量呈几何级数增长，同时公共云服务也提供了非常低廉的图像存储和检索服务。但这里面潜藏着一个严重的问题，那就是图像数据中大量的个人敏感信息有可能被外部攻击者或不完全可信的云服务提供商窃取，这无疑给用户隐私安全带来了巨大的风险。因此，如何在不泄露敏感信息的前提下，实现高效和准确的图像搜索，即所谓的“图像可搜索加密”，成了一个极具研究价值的课题。

独家 | 信号处理顶会ICASSP开幕，俞栋张长水周彤荣升IEEE Fellow

ICASSP 2018 正会已于当地时间 4 月 17 日在加拿大卡尔加里（Calgary）开幕。IEEE（电气和电子工程师协会）主办的 ICASSP（International Conference on Acoustics, Speech and Signal Processing，国际声学、语音与信号处理会议）是信号处理及其应用方面最大、最具影响力的学术会议，会议内容涵盖了音频和声学信号处理、生物影像和信号处理、信号处理系统的设计和实现、图像视频和多维信号处理、信息取证和安全、工业 DSP 技术、多媒体信号处理、传感器矩阵和多通道信号处理等多达二十个方向。

基于 Milvus 的音频检索系统

人可以通过听觉感知位置、运动、音调、音量、旋律并获取信息。日常生活中，音频是一种重要的多媒体数据，我们会收听电台节目、欣赏在线音乐等。

下一代视频编码标准AV2拉开序幕，腾讯持续为数字化产业建设助力

自AV2标准技术研发工作开展以来，腾讯多媒体实验室团队截止目前共有5项独立编码工具获得开放媒体联盟采纳集成进入AV2参考软件，技术覆盖视频编解码多个核心技术模块，包括帧内编码、变换编码、块划分和环路滤波等。团队累计贡献了AV2标准目前所有采纳技术中超过80%的图像/帧内编码性能增益。腾讯AV2技术方案的帧内编码性能增益数据显示，当前互联网中75%以上的流量都来自于视频。5G网络在带宽、时延上的不断提升为超高清视频的全行业普及创造了有利条件。而更高清晰度和更大的码率对视频内容的高效压缩

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐