前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习工程师应该了解点啥

深度学习工程师应该了解点啥

作者头像
刀刀老高
发布2019-06-20 10:57:48
7040
发布2019-06-20 10:57:48
举报
文章被收录于专栏:奇点大数据奇点大数据

昨天发了一篇叫做《月薪5K和5W的程序员差距在哪儿》的软文,有的小朋友跟我说,能不能发一篇《月薪5K和5W的AI工程师差距在哪儿》的文章。要发这样一个题目的文章我觉得似乎并不能表达我自己想要表达的意思。

首先我还没见过月薪5K(这么低)的深度学习工程师,业余自己玩的不算,我指的是在岗进行生产的深度学习工程师,确实没见过这么低工资的。最低都应该在10K起步,毕竟要进入这个大门学习成本还是有点高的。

其次,我个人认为这类岗位的划分其实有些模糊,有一些是带有数据科学家性质的底层技术与模型的研究人员。这样的人才很多都集中在微软研究院,谷歌,亚马逊,脸书(Facebook)这样的超大IT企业,这些企业无一例外都有着对于技术极客精神的钻研热情与信仰。这是他们赖以生存的土壤。而对于大多数以应用为目的的企业,未必适合招揽一批这样的人。因为这些企业会看上去更“务实”一些,它们崇尚落地,崇尚赚快钱。不过我这样对比绝没有贬低它们的意思,因为毕竟对投资人负责对市场结果负责也是一种非常基本的商业道德品质。

而且,成为数据科学家其实是需要一点点天分的,也就是说对于绝大多数的工程师而言有成为数据科学家的梦想是好的,而自己进行务实地脚踏实地地发展,还是要进行成熟的应用和落地,帮企业解决实际问题。那这类“务实”的深度学习工程师在做应用的时候,应该了解些什么,学些什么呢?

毫无疑问,作为深度学习中的链表、数组、树等这些基本结构,全连接网络、卷积网络、循环神经网络、正则化惩罚项、Dropout、过/欠拟合、学习率、梯度弥散/爆炸等这些基本概念是必须掌握的。但是,如果想要用深度学习中的钢筋混凝土和玻璃钢架技术,仅仅掌握刚刚这些还是不够,你同样需要站在巨人的肩膀上去继续探索,你需要了解更多的已有的成熟模型方案来解决确定的问题。起码在遇到一些问题的时候,你应该知道哪些是已经在业界有些研究成果并可以通过自己有限的加工就可以商用的。

有图片分类的需求?可以呀,这是最成熟的应用领域了。用Inception或者Residual框架搭建的分类网络是完全可以把图片分类任务做到几百个分类,95%甚至99%以上的正确率的。

有目标识别的需求,想识别出一张图片或一帧画面中有什么物体,物体在什么位置?可以呀,YOLO、SSD,这都是典型的端到端直接出结果的深度学习应用模型,业界也越来越多地采用它们作为解决方案。

有图片扫描转文字的OCR需求?可以呀,CPTN模型就是做这个用的。如果你要让它对特殊场景进行适配,那就补充样本,做些相应优化就可以了。

想要把图片上的主体内容抠下来,或者去除背景?可以呀,U-NET或者FCN就是做这个用的呀。再把自己的标准像换背景就不用求助照相馆了。而且,你可以看看B站上的弹幕都可以跑到人后面去——这种应用就可以用U-NET来实现。

想要做人脸识别?可以呀,Facenet的论文都出了好几年了。可以很好地区分不同人的样貌,即便是这个人化了妆或者年龄有了改变,通过适当的样本配置和参数调教,仍然可以被它识别出来。据说这种模型(及其变种)每年配合张学友大叔能抓好几百逃犯。

想让计算机能够标注描述图片上的信息内容?可以呀,Image Caption就是这样的模型。它不止能标出图片上有什么,而是可以完整标出一个可阅读的短句,很接近人类的感受。

想要进行文本分类,区分不同文档的类型?可以呀,用TextCNN就好了。这种用法和图片分类没什么太大区别,卷积网络能卷图片就能卷文档。智能文档分类、舆情监控、垃圾邮件过滤等等。

要想把一段文字中的专有名词,哪怕是没见过的给识别出来?可以呀,用BiLSTM+CRF的模型就可以。这类任务叫做NER(Name Entity Recognition)命名实体识别,在业界的技术也越来越成熟了,用深度神经网络完全可以胜任。

想要把一个长篇文章进行降维压缩,但是又不想丢失它所描述的背景信息?可以呀,用Doc2Vec模型来做降维。虽然说输出的模型结果我们人类无法直接阅读,但是一个几万字的文档只被压缩成一个一千字节不到的数字矩阵,而且还不影响后续其内容的分析工作,应该说还是非常有吸引力的。

想把一段文字变成人声朗读出来?可以呀,这种叫做声音合成任务(TTS,Text to Speech)。用谷歌的Tacotron、Tacotron2的就可以啊。百度也有类似的研发能力,而且发表了相关的模型——Deepvoice系列,Github上也能找到一些野生版本。所以,这个领域不缺模型可以选的。

想像Siri那样把语音转化成文字?可以呀,可以用CNN+LSTM(GRU)+CTC的方法来搭建深度神经网络。这种方法很通用,在Github上也有中文开源版本的,下载训练很方便。

想要让计算机学会下棋、打牌、玩游戏的策略?可以呀,AlphaGO都3岁多了啊。深度强化学习的算法族是非常丰富的,DQN、DDPG、A3C、PPO、TRPO、UNREAL等都是名噪一时的深度强化学习模型。当然,强化学习的模型训练与前面我们说的各种监督学习的过程是不一样的,比较复杂,要想掌握的话需要很多补充知识,但仍然是有据可循的一套方法论体系。

其实刚刚列举的也只是众多深度学习能力中的冰山一角。如果想要了解更多模型的特性和原理,那就还是要经常涉猎顶会论文、高档的技术博客,当然,还有本公众号。以后,相关的新信息我们继续补充。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能工场AIWorkshop 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
人脸识别
腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档