前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >搞多媒体开发?吴威麒:先拉个书单看看

搞多媒体开发?吴威麒:先拉个书单看看

作者头像
LiveVideoStack
发布2021-09-01 09:49:51
3100
发布2021-09-01 09:49:51
举报
文章被收录于专栏:音视频技术

从2017年4月22日一场LiveVideoStack活动开始,每次活动都会选1-2本技术图书作为奖品。我们相信阅读这件事情“从来都不晚,一直都有用。”大多数技术牛人都推荐研究开源项目的源码,勤看论文,但推荐高质量的多媒体开发领域的技术图书并没有达成共识。今年,我们先后推荐了《移动音视频开发进阶指南——基于Android与iOS平台的实践》和《FFmpeg从入门到精通》(想要得到刘歧大师兄这本书的同学可以关注我们在上海的活动《LiveVideoStack Meet上海:多媒体开发新趋势》) 本文是对触宝科技音频技术专家吴威麒的邮件采访,他非常详尽的推荐了多本多媒体开发经典图书。

策划 / LiveVideoStack

LiveVideoStack:吴威麒你好,能否简要介绍下自己,包括目前的主要工作及关注领域?

吴威麒:我是2013年毕业于上海大学通信与信息工程学院,信号与信息处理专业。毕业后从事过一年的音视频应用层开发,之后主要专注于音频算法方面的研究与开发。目前在触宝科技担任音频技术专家,主要负责优化PC端和移动端的通话音质。自己比较感兴趣的领域包括语音增强、音乐分析、数字音效、语音合成与识别、VR技术、以及深度学习在音视频领域的应用。

LiveVideoStack:对于学生或没有多媒体开发经验的技术人而言,如何从零开始学习多媒体开发?有哪些学习文档、图书、资料推荐?

吴威麒:对于想从事多媒体工程开发的新手,推荐以开源项目FFmpeg为中心,首先学会应用,再熟悉整个架构,最后对自己感兴趣的模块深入到源码学习,遇到问题会查相关资料,这样可以快速入门。

对于想从事语音信号处理与音频算法开发的同学和新手,一方面吸收开源工程的优秀模块,但更为重要的是要学习相关理论基础,在这里给大家推荐一些书籍:

《Discrete-Time Signal Processing》

这本数字信号处理图书是最为经典的图书之一,作者是奥本海姆,他为数字信号处理这门学科的建立和推广起到了极为重要的作用,因而在信号处理界拥有巨大的声望。

《Discrete-Time Speech Signal Processing: Principles and Practice》

这本书是数字信号处理在语音领域应用的经典书籍之一,全书以概述的形式阐述了语音信号处理的方方面面:包括语音发音机理,声道建模,语音编码、语音增强、语音合成与变换、语音识别、说话人识别等,可以让大家对语音信号处理领域有个全面的认识。

《Matlab 之语音处理与合成工具箱》,《MATLAB语音信号分析与合成》

这两本书可以让大家对语音有个更加直观的认识,熟悉语音的生成、元音和辅音建模生成、语音的相关特征以及控制参数重新合成语音。

《Real-Time Digital Signal Processing Fundamentals, Implementations and Applications》

这本书的主要特点是除了理论叙述外,还有与之相关的工程实践,进一步让读者加深理解,同时加强动手能力。

还有一些特定领域的书籍:

  • 语音识别:《Speech Recognition: Theory and C++ Implementation》
  • 数字音效:《Digital Audio Effects》
  • 语音增强:《Specch enchancement theory and practice》

以上的这些都是语音与音频信号处理的基础书籍,里面阐述的都是一些经典方法,如果要做出更好的效果,这些是远远不够的,需要多读论文,多动手仿真,学会筛选资料,有自己的想法,用工程手段避开技术盲区等,才能以最短的时间做出最优的效果。

最后,希望能给予这块的研发人员更多一点耐心。因为每个技术细节可能有很多相关的文献,经常会仿真了很多文章,效果都不理想,即使找对了资料,很有可能忽视了某些细节,很长的一段时间都没有突破,甚至有些需求通过技术手段目前是无法落地的。

坑很大,研发不易,且行且珍惜。

LiveVideoStack:展望未来,你认为多媒体技术在哪些场景或行业有机会重度使用?

吴威麒:未来比较看好VR和AR音视频产业的发展,它改变了音乐、影片、游戏等制作方式,大大提升了人们的感官体验,丰富了人们的娱乐生活。整个VR产业链,包括VR硬件设备制造,VR内容生成制作,以及VR内容平台和分发等,将会大放异彩。除了被动接收内容,通过手势或者语音或者虚拟按键,让交互变得简单、立体化,一切变得越来越智能,如果可以的话,完全生活在一个虚拟世界里,不用出门,就能感受到南极的风光、喜马拉雅山的壮丽、撒哈拉沙漠的神秘…

另外,比较看好AI产业助力制造业、物联网改造升级,让人们控制设备变得更加容易和方便,甚至通过AI大脑控制所有设备,实现更高精度、所有零件实现标准化、完全自动化,将人们从简单无聊的工作中解脱出来。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 LiveVideoStack 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档