首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

学界 | 语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet

最近,百度硅谷人工智能实验室的研究员提出了 ClariNet,一种全新的基于 WaveNet 的并行音频波形(raw audio waveform)生成模型。WaveNet 是能够完美模仿人类声音的最前沿语音合成技术(Google I/O 大会所展示的超逼真合成语音的背后技术)。自从其被提出,就得到了广泛的离线应用。但由于其自回归(autoregressive)的特点,只能按时间顺序逐个生成波形采样点,导致合成速度极慢,无法在 online 应用场合使用。ClariNet 中所提出的并行波形生成模型基于高斯逆自回归流(Gaussian inverse autoregressive flow),可以完全并行地生成一段语音所对应的原始音频波形。比起自回归的 WaveNet 模型,其合成速度提升了数千倍,可以达到实时的十倍以上。

00

从灯泡振动中恢复声音的侧信道攻击

本文中介绍了Lamphone,是一种用于从台灯灯泡中恢复声音的光学侧信道攻击,在 COVID-19 疫情期间,这种灯通常用于家庭办公室。本研究展示了灯泡表面气压的波动,它响应声音而发生并导致灯泡非常轻微的振动(毫度振动),可以被窃听者利用来被动地从外部恢复语音,并使用未提供有关其应用指示的设备。通过光电传感器分析灯泡对声音的响应,并学习如何将音频信号与光信号隔离开来。本研究将 Lamphone 与其他相关方法进行了比较,结果表明,与这些方法相比Lamphone可以以高质量和更低的音量恢复声音。最后展示了窃听者可以应用Lamphone,以便在受害者坐在/工作在 35 米距离处的桌子上,该桌子上装有带灯泡的台灯时,可以恢复虚拟会议声级的语音,并且具有相当的清晰度。

04
领券