从旧金山到滨江区，系统依旧收敛稳定

LiveVideoStack

发布于 2020-09-14 11:27:32

5570

文章被收录于专栏：音视频技术

这次LiveVideoStackCon 2020 北京站，我们邀请到了曾任职于Apple、Facebook和Zoom的音视频算法工程师郝一亚。一亚博士毕业于美国德州大学达拉斯分校，在校时是Statistical Signal Processing Research Lab的研究助理，专注于在助听器上的语音数字信号处理算法。

2019年年底，郝一亚加入网易云信，研究范围包括传统信号处理算法和基于AI的算法。除了是人们口中的“程序员”，郝一亚还拥有街舞老师、兵乓球国家二级运动员等多重身份，参加过顶级歌手的世界巡演.......而当一名在美博士从湾区来到内地，他的生活又发生了怎样的变化？

用郝一亚自己的话来说，就是“系统还是收敛稳定的”。

以下内容由LiveVideoStack与郝一亚的采访整理而成

LiveVideoStack：在您众多的身份中，您更享受哪一个“自己”，对哪一个“自己”最满意？开发者/程序员在这众多的标签中处于一个什么样的位置？

郝一亚：最享受的可能是作为Dancer/Choreographer的身份，最满意的应该是Acoustic Engineer这个身份，因为自己能从很平常的声音中听出更多的信息，比如声音有没有distortion、每个人的pitch基频、环境底噪的分贝数等等。

开发者/程序员应该相当于我实现自己算法的一个途径，要将自己听到的和提出的算法应用于实际，都需要自己动手去写出来。

LiveVideoStack：在美国求学、工作的过程中，您最开心的时刻有哪些？

郝一亚：应该是博士答辩完成，老板对我说“Congratulations, Dr. Hao”的时候，还有求婚成功的时候。

LiveVideoStack：加入网易云信后，你的生活发生了哪些变化，喜和忧分别是什么？

郝一亚：其实没什么大忧，硬要说的话可能是上班时间增加导致家庭和个人时间太少。

喜的方面其实挺多的，之前没有在中国的公司待过，本来是做好了应对“坏情况”的心理准备，但实际工作中，团队氛围、专业程度、自己的适应状态都达到了一个很好的正反馈系统中，用DSP的术语来说该系统还是收敛稳定的。

音频算法的迭代不是一个短平快项目，需要耐心的打磨和积累。而网易就是这样的一个企业，以匠心致创新，这就是我选择网易云信的最大原因。

LiveVideoStack：云信每周四的程序员分享进展如何，最近又分享了哪些有意思的话题？

郝一亚：我觉得周四的分享特别好，分享内容有广度有深度。我自己印象最深的是音频组同事讲的那次关于音频信号问题的分析，现场气氛很好，大家都在踊跃地讨论，而且分享后大家反馈也是说了解了很多音频问题表象下的具体原因。虽然分享最后有点像音频组的“甩锅大会”了。

LiveVideoStack：在您就职FB、Apple等互联网公司期间，遇到过哪些印象深刻的技术难题，以及您是如何应对的？

郝一亚：当时在Apple的时候，第一个落地的算法是结合一个新的sensor的一个音频算法。当时难度挑战是相关的paper很少，很多细节只能自己去摸索，我的应对办法就是两个字“加班”。

开个玩笑，是加了几天班，但关键的策略是没有急于求成，而是把sensor在各个产品下的指标都考虑到，测试好，打好基础，前期工作做得好，制定方案就会很可行。

Apple的音频实验室设备非常齐全，到了“要什么有什么”的境界，为工作提供了很多便利。

LiveVideoStack：基于AI的算法产品化这一点，您有什么比较欣赏的平台或产品吗？

郝一亚：在音频领域，虽然现在AI音频算法在产品落地上依然没有普及开，但是Google在近几年一直是这个领域的佼佼者，其次Amazon的Lab126在这个领域的研究也是非常超前的。

LiveVideoStack：“将AI算法任务模块化”具体是一个什么概念，有哪些实际用例？

郝一亚：AI算法在实际应用当中有很多问题，在音视频算法中，让AI去处理一个链路很长的算法问题时，Model的效果、泛化能力、计算复杂度都很头疼。

如果是沿用传统的算法，将传统算法中的一个适合AI的模块单独拿出来，用训练的Model来处理，这种方式往往在上述的三个维度都能有提升。

LiveVideoStack：将具体技术“产品化“的过程中您遇到过哪些困难？

郝一亚：主要的困难是算法的研究与产品的需求之间往往存在着差距，在云信的算法落地过程当中，稳定性和高可用性是我们的首要目标。

在此基础上，我们会不断地去match产品的需求，分清需求的重要程度，不断地对算法的细节进行调整。

LiveVideoStack：据您个人经验，中美科技公司将音频技术“产品化”的过程有何不同？

郝一亚：其实中美公司在很多方面都已经比较接近了，在音频技术“产品化”方面，美国和国内公司相比，唯一的不同可能在于其音频技术产品化的流程比较清晰，音频相关的储备（比如音频工具、消声室、技术积累）比较完善。

云信目前也有很多音频相关储备，比如Soundbooth、人工头等工具，在传统3A算法和AI算法上都有可观的技术积累。

LiveVideoStack：就您个人经验，国内的公司需要如何快速弥补这一点不足；以及国内互联网公司又有哪些令你欣赏的优势呢？

郝一亚：首先，这些不足没法快速弥补。

追赶的方式我认为还是积累更多相关的人才，还需要让更多管理者认知到音频开发和其他开发的不同之处（开发周期长，需要时间打磨与积累）。

我认为国内现在最大的优势在于国家层面开始重视音视频技术，以及国内的消费能力和市场，这两点足以支撑音频领域的快速积累。

LiveVideoStack：您现阶段正在解决的问题？

郝一亚：现在基于AI的音频算法产品化的过程中，瓶颈依然是算法的泛化能力和Model复杂度，我们现在所专注的就是在不影响算法表现的情况下去提高泛化能力、降低计算量。

LiveVideoStack：您下一阶段的研发目标？

郝一亚：更深入的去“模块化”传统的音频算法，将更多的“小模块”用AI替代。

编辑：Coco Liang

LiveVideoStackCon 2020 北京

2020年10月31日-11月1日

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-09-09，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自 LiveVideoStack 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度

从旧金山到滨江区，系统依旧收敛稳定

从旧金山到滨江区，系统依旧收敛稳定

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐