小白学AI系列之0:马蜂窝有几种捅法?

前言:大家好,“小白学AI系列”从今天开始连载啦!这个系列将集思广益,收集AI研发小伙伴在脑子发热时想到的有趣切入点,用说人话的方式,带小白进入AI学习的大门。AI不应该是用来放卫星、骗热钱的玩物,不是一学就令人脱发的枯燥代码,也不是有了自我意识就要毁灭人类的终结者。它没有那么炫酷,本质上是利用数学工具和计算能力对人类智能活动的一种模拟。

手机拿好,眼睛不要离太近,让我们开始吧。

这两天,你的朋友圈可能被这篇文章刷屏了:《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》。乎睿数据发现,马蜂窝引以为核心资产的2100万条“真实点评”,有很多是从同类网站那儿抄袭得来的。我们对事件本身不做评价,毕竟吃瓜群众还没看到故事的全貌,只挑熟悉的技术聊聊:乎睿数据如何判断马蜂窝中存在大量抄袭的信息?有没有更加智能的方式分析更大数量级的用户点评?AI能用于监控用户数据作假吗?

1

批量获取信息:爬虫

爬虫是一种按照特定规则,自动抓取网络信息的程序。假设你想获取豆瓣电影排名前100的动作片简介,你大可以上班时间摸鱼,挨个点开,复制简介,粘贴到记事本。(小心老板,祝您平安。)这样很锻炼耐心和手部肌肉群。或者,你也可以用爬虫来做这件事,基本上大家都选择Python来做,大神早已将大量的规则、操作集成为Python库,比如BeautifulSoup、Scrapy、Selenium等。有的库帮助你伪装为浏览器和鼠标点击行为,而更常见的是识别网页信息对应的标签。让我们打开马蜂窝,搜索杨超越的家乡:江苏大丰,目的地选择大丰麋鹿园。

你眼中的网页长这样:

浏览器眼中的网页是这样:

如果有人要量抓取大丰麋鹿园的评论,就告诉爬虫:标签里class=”rev-txt”的一律拿下。

2

信息处理:图形化展示 + 自然语言处理

乎睿数据在解读马蜂窝点评数据时用到了简单的图形化展示:

由于爬虫获取的数据带有发布时间等信息,通过图形化展示,就能方便地看到大量数据呈现的形态和趋势。大量用户集体发言,集体禁声,发表评论的时间与工作时间高度重合等特征,在图表上一览无余,让数据说话。

此外,乎睿数据团队还发现了点评者时男时女的诡异现象:

阅读理解可以说是很细心了。但是这样找bug虽然其乐无穷,但是费时间啊,如果我想分清一千万人中有多少人雌雄同体,有办法吗?

还真有。自然语言处理(NLP)是AI中的热门方向之一。通过这个技术,我们可以教会程序理解点评中蕴含的信息,并进行更高级的处理。我们可以知道用户最常用的词汇是什么,是满意还是吐槽。目前的NLP已经可以总结段落大意,并判断写作者的感情倾向。这样,程序就能汇总大量用户的态度和感情倾向,用于后续更高级的处理。有兴趣的小白入门也简单,记得上周发布的智子人工智能平台Sophon吗?NLP相关的经典算法拖拽出来就能用了,何等快节奏的AI工程师入门:

3

AI用于反欺诈、智能投资研究的场景

乎睿数据团队质疑的问题可能只是行业生态的冰山一角。如果实锤落地,各家依赖于用户生成内容的网站又该如何监督自身的数据真实性呢?

用户数量巨大的前提下,人工审核信息真伪的效率是远远跟不上需求的。集成了AI的用户画像系统能很好地满足这一需求。还是以马蜂窝为例,通过NLP技术,我们可以知道用户的消费、点评记录,还有他们的各种评价。基于这些信息,用户画像系统可以判别出他们的大致属性:

如果我们像上文一样,要揪出雌雄同体的虚假评论者,就可以在这套画像系统中自定义,精准排雷,即维护了网站声誉,又巩固了投资者的信心。更加棒的是,这一切都可以让一个稍微受点训练的小白在Sophon中完成。

结语:老话说的好:能动手的,尽量别哔哔。如果某个技术令你心动,最好的学习方式并不是啃大部头,试图掌握一切知识之后才动手。不是的。你可以通过搜索引擎获得入门知识,然后在项目中积累,通过失败定位知识盲点,不耻下问,厚着脸皮前进。

小白学AI系列和你一同进步。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181024G1MJDR00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券