【睡前碎语】技术以外的事

木羊

发布于 2022-04-11 17:57:12

2370

发布于 2022-04-11 17:57:12

文章被收录于专栏：睡前机器学习

头条讲的是DeepFake背后的技术原理。DeepFake这几年越来越火，都上了民法典的热搜，而且原理也简单，话不多就是GAN。

不过到了GAN这里就有点儿麻烦。这哥们最大的特点是玄学中的玄学，用起来确实效果拔群，讲原理吧也不难，就是一左一右俩现成的深度模型套了个博弈论的框架。可为什么套了个博弈论的框架效果就能拔群呢？讲不清楚，你去看所有的书，讲到这里都只能在数学里翻来翻去，对初学者特别不友好。

加之GAN作为机器学习领域近几年最有意思也是最热门的研究方向，变种多发展快，很多都是开着脑洞一个劲地朝奇怪的方向发展，要把这些都捋出个头绪不太容易，听着也感觉乱。

信息量这么密集，拆开讲是必然的，原来打算分为原理篇和应用篇，希望借着DeepFake帮助大家消化。原理篇就是头条了，反应不温不火，应该是没能拨云见月，应用篇本也写了个七八成就差收尾配图，现在看来还得重头再想想。

拖更久了借口就上升到了哲学高度：写完的东西大家看了没帮助，那就相当于没写。

不过今天立春，很快就冰河解冻狗熊撒欢，再不说点什么这里该长草了。既然应用篇还得回炉重修，其中的一个不吐不快的话题干脆单拎出来先说了。题目可以起的很学术，加一点公号轰动风的话不妨叫《论机器学习技术发展对人类伦理的反噬》。

简单来说，技术不再只是技术的事儿了。机器学习未来的科技树点歪了，可不只是学界的责任，在座的各位都得反思。

反思什么呢？反思正经的技术是怎样被用户玩坏的。

DeepFake就是典型例子，不多说，各种公号文章都说了很多了，懂不懂都不要紧，光是看那张换了脸的黄蓉，相信谁都能义愤填膺写下万字长文，我们聊点别的。

先说两件事。

第一件事，我们在头条里提到的那位大牛 Yann LeCun，前一阵在推特上被骂到退群了，因为他给“种族歧视”辩护。匪夷所思，我看了一下，起因是一款叫PULSE的应用，用了GAN做高分重建，名字很吓人，其实就是提高图片的分辨率，你那张用座机拍的高糊人脸只要用PULSE处理一下，就可以马上变4K高清，用一个更耳熟能详的话就叫“去码”。

这本来没问题，高分重建是GAN目前重要的发展方向，PULSE效果拔群，于是在顶会CVPR上发了论文，这也是学界的常规操作了，而且一般也很难在社交媒体上翻车，毕竟GAN的原理远不是大家都懂，后面的效果拔群自然很难找到通俗易懂的喷点。

可是，没过多久，有人就发现PULSE存在种族歧视，你把奥巴马的脸丢进去，它会吐出一个高清的白人男性，不知道是谁，总之不是黑人奥巴马。我在网上的新闻截了张图，大家自行辨认：

许多用户一用发现还真是，黑人进白人出，妥妥的种族歧视。这还了得，种族歧视在全世界都是红线，大家都熟，于是PULSE一下就火出圈了，漫天都是“AI偏见”这样的词。

这时Yann LeCun跑出来解释，说这不是AI偏见，这是模型的训练数据存在样本偏差。样本偏差在统计学和在机器学习都是很重要的问题，再好的算法，数据跑偏了，结果自然也就跑偏了。

Yann LeCun的意思很简单，PULSE就是个缺心眼的傻孩子，一张白纸，只会照猫画虎，你喂的白人照片多，吐出来的照片当然更像白人。当然，也不存在啥偏见。

这点我们在原理篇解释过，GAN学习的就是数据分布，白人照片数据和黑人照片数据存在不同的分布，训练数据偏向白人，GAN自然就倾向生成白人。大家要一下子没想起来，不妨再翻翻头条文章。

Yann LeCun说的都是基础知识，不过网上了解的人显然不多，我觉得其实也可以这么来解释：AI要有偏见，首先得有个脑子。AI有脑子吗？不好意思，现阶段的AI还没那玩意。

总而言之，AI还不具备形成“偏见”的能力。

不过，大家不BUY这套解释，毕竟道理倒不一定都懂，但PULSE的“偏见”都能看见，连一些机器学习的研究人员也站起来说样本偏差不也是偏见的体现吗？

好家伙，这谁顶得住，Yann LeCun也只能关麦退群了。

看到这里你可能还觉得，先别管这算不算偏见，但事还是圈里的事。那第二件事就是在座各位的锅了。

第二件事有点棘手，主角不好找，不是没有主角，是主角太多，不好定哪一个。这里我就抽象地说一说。

聊天机器人大家肯定都见过，这玩意现在名字不太统一，有叫人工智能客服，也有叫虚拟女友的，反正意思大家都懂，你发一段话“她”回一段话，一句接一句地就这样聊，之前还有位老实巴交的程序员把前女友的聊天记录做成了聊天机器人，成为一段男默女泪的佳话。总之，是现在AI的一个主流应用方向。

但是，问题也来了，而且还是那个大家都懂的问题，种族歧视。

一个典型例子是微软的聊天机器人Tay，上线不到24小时就开始口吐芬芳，你问“她”对纳粹大屠杀的看法，“她”毫不犹豫就回答说犹太人都应该死一死。这不是原话，意思差不多，大家都觉得非常离谱，所以微软赶紧把Tay下架了。

不只是Tay，还有很多聊天机器人口吐芬芳的新闻，我看到有一条就说韩国网友齐心协力把一款聊天机器人调教成了“公共性奴”，还好是韩国，不然又得怪袁老把他们喂得太饱。

每次出这种新闻，舆论总喜欢往“AI偏见”上面去靠，有些人觉得这是抹黑AI，我倒认为是抬举了人工智能技术，现在人工智能和人工智障是同义词，还真没“偏见”这本事。

那原因是什么呢？还是上面说的样本偏差。聊天机器人很多，但不是都能出问题，这些爱翻车的聊天机器人都有一个特点，就是能够让用户教“她”。说的技术一点，就是可以输入训练样本。

明白了这个，后面就简单了，喂进去的数据有“偏见”，出来的结果自然也有“偏见”。从这层意义上看，AI确实可以有“偏见”，但AI技术是无辜的，问题在使用技术的人。

AI如果有“心地”的话，一定是一片纯白，是人的偏见污染了这片纯白。 前不久有位朋友和我聊机器学习，问了很多算法方面的事情，担心不能熟练魔改算法就没法用好模型。我说，在实战中，魔改模型其实很少，更多的工作是放在准备数据上。数据处理，虽然机器学习的课本一般都只用很少的篇幅介绍，但在使用机器学习技术时，这才是真正大头。

所以，下次再有“AI偏见”的新闻，麻烦不要再对技术本身大惊小怪，AI虽然是新兴技术，但新技术也好老技术也好，技术本身是无所谓偏见或者歧视的，你让“她”看到怎样的世界，“她”就会照搬怎样的世界，单纯得近乎愚蠢。

是人。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-02-03，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习