注意!有人正在计算你今天会出现在哪里,并尝试左右你的行为

导读:很多网友都怀疑手机在偷听我们的日常对话,这甚至已经算不上新鲜事。有知乎网友提到,跟同事聊起蛋糕店后,贴吧app上赫然出现了85°C的加盟广告!另有贴吧网友吐槽,跟身边的人频繁讨论西餐之后(并且确定没有搜索任何跟西餐有关的内容),今日头条推送了一堆关于西餐的内容。

一个叫tydoctor的美国小哥哥的经历更惊悚,他说,他偶然发现了存储在某款app文件夹的一条音频,“是上一次我用这个app遥控情趣用品的时候录的。”你的手机或许在你毫不知情的情况下,记录了一些不可描述的事情。

其实这些可能都是广告商利用机器学习的算法,尝试给你发送针对性很强的精准广告。但机器学习本身并非恶魔,很多机器学习的应用正在生活的方方面面给我们提供帮助、创造价值。

那么,机器学习到底都能做什么呢?答案是:它的应用领域可能超出你的想象!本文将划分用途,并且描述当前是如何使用机器学习的。

01 软件

在软件中广泛使用机器学习来提升用户体验。一些软件自带的算法库能够在用户使用后学习用户的行为,在使用软件一段时间后,能预测用户想要做什么。

1. 垃圾邮件检测

对于垃圾邮件,可以使用贝叶斯分类器更好地完成检测工作。自从早期谷歌邮箱中使用垃圾邮件检测以来,已经有多种学习方法用来检测信息是好是坏。

垃圾邮件检测是一个机器学习算法的经典应用。随着时间的发展,该算法被演绎得越来越好。

想一想我们正在使用的邮箱。当一条信息被认为是垃圾信息时,邮箱会向你求证该信息是否是垃圾信息。如果你确定它是垃圾信息,则邮箱系统将学习这条信息并积累经验。从此,邮箱中的信息将按照用户的要求正确进行分类。

2. 声音识别

在苹果的iOS系统中,语音助手Siri是机器学习应用的另一个案例。用户向Siri表达请求,它可以知道用户想做什么。最终的结果将是发送一条推特或者一个文本信息,或者设置一个约会日历。如果Siri不知道你的请求,它将在谷歌中查找答案。

Siri是一个深受用户欢迎的服务,它使用了设备和基于云计算的统计模型来分析用户输入的语音信息,最后得出结果并在设备中执行。

02 股票交易

有很多的平台专门用于帮助用户更好地进行股票交易。这些平台需要做大量的分析和计算来进行推荐。从机器学习的角度来说,将为用户做出决定是否在当前价格买入或者卖出股票。它将考虑历史的开盘和收盘价格,以及股票的成交量。

通过低价、高价、日开盘价和日收盘价这4个信息,机器学习算法可以学习股票的趋势。将这运用到用户投资的股票中,用户可以拥有一个系统来帮助其决策是买进还是卖出。

比特币是一个很好的交易算法例子,它结合市场愿意支付的价格和拥有者愿意卖出的价格实现交易。

媒体对各种高速算法交易很感兴趣,每一秒的基于算法预测的股票交易能力都是一条很有价值的新闻。将大量资金投入到交易系统中,机器学习算法可以有条不紊地进行股票交易。如果算法不能及时发挥作用,毫秒的网络延迟将损失数以万计的交易。

在交易中,大约有70%的交易是被机器操作的。当事情往好的方向发展时,这种操作是非常好的。但是当故障发生并且在几分钟以后才被注意到,那么这段时间已经进行很多交易了。

2010年5月,当道琼斯工业平均指数在600点时发生了快速的崩盘,这是交易中存在问题的一个很好的案例。

03 机器人学

通过机器学习,机器人可以获得技能,学会适应工作环境。如通过自动化学习或者学习人工干预,可以交换对象位置、把握对象,或者获取运动技能。

随着在机器人内部植入的传感器越来越多,其他算法将被应用到机器人外部,以进行更多分析。

04 医学和医疗

机器学习被应用到医疗分析的竞赛正在进行。许多初创公司正在研究使用机器学习与大数据结合的优势为医疗保健专业人士提供更好的数据,使他们做出更好的决策。IBM的沃森是一款著名的超级计算机,它曾经在电视问答节目中战胜了两名人类对手,它可以被用来帮助医生诊断。

使用沃森作为云服务,医生可以访问学习数以百万计的医学研究页面和几十万条医学数据信息。

许多消费者在使用智能手机和相关的设备,这些设备能整理一系列健康信息,如体重、心脏、脉搏、计步器、血压,甚至血糖水平,它现在可以跟踪和追踪用户定期的健康,查看日期和时间。机器学习系统可以通过该设备向用户推荐更健康的选择。

虽然这是很容易做的数据分析,但是保护用户健康数据的隐私又是另一回事。显然,一些用户更关心的是他们的数据如何被使用,特别是在它被出售给第三方公司的情况下。在医学医疗领域分析量的增加是全新的,但隐私的争论将是算法最终被使用的决定因素。

05 广告业

只要生产出产品,就会提供服务,公司一直在试图引导人们购买他们的产品。自1995年以来,互联网给市场创造了直接向我们发布广告的机会,而无须电视或大型印刷公司的参与。还记得我们电脑中cookies文件有跟踪用户的潜能吗?当时,从浏览器中删除cookies文件并控制谁监督用户习惯的竞赛是一件大新闻。

日志文件分析是另外一种广告商用来查看用户兴趣点的方法。他们能够将结果聚类,并根据谁可能对特定类型的产品感兴趣来划分特定的用户群组。结合手机位置信息就能给你发送针对性很强的广告。

曾几何时,这种类型的广告被认为是一个巨大的隐私侵犯,但现在我们已经逐步接受这种想法,很多人甚至乐于分享自己的当前所在地点。如果你仅仅认为只有你的朋友会看到这个信息,请三思!事实上,大量的企业正在从你的活动中获取有价值的信息。通过一些学习和分析,广告商可以更好地计算出某天你会出现在哪里,并尝试左右你的行为。

06 零售和电子商务

机器学习算法大量运用于零售业,包括电子商务和基础性零售业(bricks-and-mortar retail)。在高层面上,明显的应用案例是会员卡。发行会员卡的零售商们经常尽力理解用户反馈回来的数据。因为我曾就职于一家分析这些数据的公司,所以深知超市深入理解会员卡信息的难度。

若提及客户会员项目,英国的超市巨头Tesco是领跑者。消费者大量使用Tesco会员卡,这让Tesco得到了大量消费者的购买决策。他们从销售点(POS)收集数据,然后反馈到数据库中。在早期的会员卡时代,由于数据庞大,因此没办法进行快速的数据挖掘。这些年,随着数据处理方法的进步,Tesco和销售公司Dunn Humby已经研发出一个好策略来理解用户行为和购物习惯,以此鼓励他们尝试选择与平时类似的产品。

在美国,类似的案例是Target,它管理着一个相似的项目,跟踪客户参与的品牌,包括邮件、网页访问,甚至在店内参观。从数据库中,Target能够调整针对正确的客户获取合适的交流方法,从而获得品牌反馈。Target了解到,并不是每一个客户都想收到电子邮件或SMS消息,有些人更喜欢通过邮政服务接收邮件。

机器学习在零售业的用途显而易见:一方面,购物篮挖掘和化分用户是给顾客传达合适信息的关键进程;另一方面,它可能会因为太准确而导致麻烦。在新闻界作为大数据大型隐私危机案例而广泛引用的Target“婴儿俱乐部”故事,展示了机器学习可以很容易地确定我们是习惯的“奴隶”,它们将注意到这些习惯的改变。

Target的隐私困扰:Target的统计学家Andrew Pole,通过分析购物篮的数据来判定当前的顾客为孕妇。分析中许多选定的产品出现了,然后Target制定了一个怀孕预测评分。根据最新计算的分数,把优惠券送给那些预测出是孕妇的客户。这项工作进展顺利,直到一个十几岁女孩的父亲联系了当地的商店,抱怨他们发送给他女儿相关优惠券。结果显示,Target在女孩告诉父亲怀孕的事实之前已经预测出这个女孩怀孕了。

对于所有较好用途的机器学习算法来说,也有着许多神奇的事。例如,你可能听说过“啤酒与尿布”的故事与沃尔玛等大型零售商的联系。这个想法是:在周五,啤酒和尿布的销售都在增加,这表明母亲出去了,而父亲为自己囤积啤酒,并为照看的小家伙囤积尿布。这明显是一个神奇的事,但仍然没有阻止营销公司从推销他们的故事(并相信这是真的)变成想从他们数据中学习的组织。

另一个神奇的事是,重金属乐队Iron Maiden通过处理比特流数据来查找哪些国家在非法下载他们的歌曲,然后前往那些国家开演唱会。这个故事让营销人员和媒体对大数据和机器学习非常感兴趣,但可悲的是这是不真实的。并不是说这些事情不可能发生,只是还没有发生。

07 游戏分析

我们已经验证了跳棋是一种很好的机器学习实验候选者。你还记得那些有一个塑料手柄的旧的电脑象棋游戏吗?玩家移动一步,然后电脑移动一步。这就是机器学习的规划算法。从几十年前发展到今天(对我而言,电脑象棋恍如昨日),游戏主机市场正不断地产生你玩自己最喜欢的游戏时的分析数据。

微软已经花了很多时间研究Halo 3的数据,来看看玩家在确定层次上如何表现,同时也会指出玩家什么时候作弊,并依据对consoles反馈的数据分析来进行修复。

微软还致力于被纳入驾驶游戏Forza Motorsport的Drivatar。当你第一次玩游戏时,它不知道你的驾驶风格。经过一段时间的练习,系统学习你的驾驶风格、一致性、在弯道上的出口速度、在轨道上的定位。每驾驶3圈系统就进行采样,保证有足够的时间来了解你的驾驶行为。随着时间的推移,系统继续学习你的驾驶模式。当学习完你的驾驶风格之后,游戏开辟了新的平台,让你与其他车手,甚至与你的朋友竞争。

如果你有孩子,你应该会看到孩子对nintendog狗(或者猫)的喜欢。这是一个游戏,游戏中,人被安排任务来照顾屏幕上的宠物。算法可以计算出什么时候需要带宠物玩,怎么样和主人交流,宠物到底有多饥饿。

这仍然是早期的游戏公司将机器学习运用到游戏基础建设中来,让游戏变得更好玩。随着越来越多的游戏出现在如iOS和Android平台之类的小设备中,真正的学习在于如何让玩家回归,并且玩得越来越多。分析可以用于表现有关游戏的“滞后性”,即玩家会返回再玩一遍吗?或他们因为其他事情放弃过游戏一段时间吗?最终,机器学习的层次和游戏性能之间会有一个权衡,尤其在更小的设备中。更高水平的机器学习算法需要占用设备内更多的内存。有时你必须在游戏学习中考虑这些限制性因素。

08 物联网

能收集所有数据的连接装置安装在随处可见的地方。设备之间的通信并不新鲜,但直到最近才真正冲击公众的思想。随着生产和分销成本的降低,家庭中使用的设备和工厂一样多。

用途包括家庭自动化、购物和测量能源消耗的智能电表。这些东西还处于起步阶段,这些设备安全方面的问题仍然受到很多关注。类似地,移动设备定位就是一个关注点,企业可以通过其独特的识别卡片来定位设备,最终将它们与用户进行关联。

另外,数据是如此的丰富,足够把机器学习安置在数据的中心并学习设备的输出。这可能和监控一个能感知室外温度房子的室温一样简单,比如,它是太热还是太冷?

这是物联网早期的事情,但发生了很多导致一些有趣的结果的基础性工作。随着Arduino和Raspberry Pi电脑越来越受欢迎,从开始测量运动、温度和声音,到后来的为数据分析提取数据,不管数据是收集后的还是实时获取的,它们所需的代价相对低廉。

作者:詹森·贝尔(Jason Bell)

译者:邹伟、王燕妮

本文摘编自《机器学习:实用技术指南》,经出版方授权发布。

延伸阅读《机器学习:实用技术指南》

转载请联系微信:togo-maruko

点击文末右下角“写留言”发表你的观点

推荐语:IT不枯燥,用故事给技术加点料,全网阅读量近1000万的技术故事。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2018-05-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

“开源”创造者为你论述这一术语的前世今生

1324
来自专栏大数据文摘

业界 | 想转行?数据科学全流程求职指南

1977
来自专栏FreeBuf

Facebook:AI正在长大,对抗暴力视频直播仍需人海战术?

人工智能(AI)算法对Facebook较为成熟的内容安全系统贡献巨大,然而随着Facebook业务的扩张,不断进步的AI也不免尴尬 – Facebook开放的直...

2347
来自专栏行者悟空

项目进度估算难题

1772
来自专栏Spark学习技巧

如何成为一个优秀的工程师?

这是一篇旧文,是陆奇还在百度时候的演讲:如何成为一个优秀的工程师。道出了一个工程师应有的追求,如此,未来才能属于工程师。

892
来自专栏吉浦迅科技

您的AI产品从设想到原型就差一个Jetson TX2模组的距离

在人工智能大热的当下,拥有强大计算能力的NVIDIA走上了发展的快车道,公司Slogan也变成了“引领人工智能计算”。 凭借着在GPU领域的深耕,NVI...

6697
来自专栏企鹅号快讯

除了敏捷你还知道啥?说说软件开发的10种主流方法

1、敏捷开发 2001年,17位软件开发人员签署了敏捷宣言(Agile Manifesto),因此载入史册。自那以后,敏捷软件开发迅速流行起来;实际上,在201...

2158
来自专栏大数据文摘

业界 | 别跟风了!你的公司根本不需要数据科学家

数据科学家不是魔法师,当所需的数据不可得或者质量很差的时候,数据科学家能做的很有限,这已经超过了技术的范畴。企业管理者如果能从全局出发部署数据战略,才能真正解决...

870
来自专栏大数据文摘

剧透人生!你什么时候结婚换工作甚至狗带,Facebook都知道

你关心的这些人生重大节点,有人希望比你提前知道它们何时发生,并基于此对你精准投放广告。

1473
来自专栏SDNLAB

物联网中的边缘计算:提高网络效率以减少流量

企业对边缘计算越来越感兴趣,因为随着更多物联网设备的部署,企业需要快速分析和处理它们生成数据的方法。目标是消除将数据传输回云或内部数据中心的需要。

1275

扫码关注云+社区

领取腾讯云代金券