前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >探讨一些在机器学习上对你有影响的问题

探讨一些在机器学习上对你有影响的问题

作者头像
KX_WEN
发布2018-01-30 18:16:40
6950
发布2018-01-30 18:16:40

在自学机器学习上,一般人很难保持足够的动力持续下去。标准的测试数据往往是非常枯燥的,并且可能与你和你的日常生活毫不相干,甚至可以说是无聊至极。在你看来,你想要的应该是找到并且研究一个能够对你有用的数据集。

在这篇文章中,我们将会给出一些关于你可能会用到的数据集的想法,这些想法也许可以刺激你甚至加速你在机器学习上的应用。

会造成影响的一些问题

前文我们已经说过了对那些会对你造成影响的问题进行探讨是十分有必要的,其中影响最大的问题就是探讨后的结果是否会直接影响到你的生活。

这些问题可能与你的个人生活,业余爱好甚至工作有关,可能有些问题我们当下无法确定它们能否被解决。但是问题的严重性和范围大小其实并不重要,只要问题的结果和你有关,那么这个结果对你来说就是重要的。

这是一个有用的方法,原因有两个:

  • 它允许你客观地评价这个问题,运用你的理性的解决问题的方式来解决它,这也许会带来一些有趣的结果。
  • 对结果的好奇更有可能激励你去学习新事物或者其他不同的方法,这使得你更加深入的探讨问题的定义并且写出你的发现。因为你对结果格外的好奇,你也将会更加认真地对待这个项目。

你不能选择太过陈旧的问题。在选择问题上你还需要有一些额外的考虑:

  • 数据:机器学习算法是根据数据来模拟问题的,建模质量通常是与所提供的的数据质量成正比的。您需要拥有为这个问题模型收集数据的能力。
  • 公开性:数据或结果是否可以公有化呢?如果你想把这个项目作为你机器学习文件的一部分,这对你来说可能很重要,而且我强烈建议你这样做。
  • 研究的问题:确定一个你需要解决的问题并从它开始,这个问题需要阐明你为之所需要收集的数据以及这个问题的答案会对你造成什么影响。

在接下来的部分中,我们将探讨在你生活中的三个你可能会使用到机器学习进行调查的领域。

家庭生活中的机器学习

在你的生活中有可以用机器学习进行建模的问题或者数据么?

机器学习健身
机器学习健身

(上图由Phil Gradwell拍摄)

我能想到的生活中的五个例子是:

  • 个人理财:您可以对你个人理财的某些方面进行建模。这可以是例如每周支出预算或大量支出预算这样的事项。如果你在这方面比较关心的话,这可能在你个人投资上对你有一些影响。
  • 通勤:您可以对你自己的出行方面进行建模。例如你在某天通勤是坐的是哪辆火车或者公交、通勤所需要的时间、抵达时间预测或燃料消耗量等细节。
  • 食物:你可以对你的进食进行建模。这可以使是进食数量、摄入卡路里数量、零食摄入预测等,或者你也可以对你这一周所需要购买的食物进行建模。
  • 媒体:您可以模拟你的娱乐消费,例如电视,电影,书籍,音乐或网站。一个比较常见的方法是将娱乐消费作为主问题,同时加上考虑消费量模型,例如消费时消费了多少,以及其他可以预测到的其他方面。
  • 身体信息:你可以模拟个人身体参数中的某些方面。可以是体重,BMI指数,身体测量数据,亦或是像仰卧起坐次数或完成日常工作所需的时间等方面,或者研究自己在某日是否去健身房健身也可以。

请记住,您必须有能力或者权利拿到你所需的数据,这很可能就意味着您必须花费一些时间来测量和收集数据。

兴趣爱好中的机器学习

除了机器学习以外你还有兴趣爱好吗?如果有的话,不妨考虑一下在和你兴趣爱好相关的方面你可以采集到什么数据来建模。

机器学习赛马
机器学习赛马

(照片由 You As A Machine 拍摄并保留权利。)

这里有五个你可能会在你的兴趣爱好上用到的并且用来建模的例子:

  • 体育方面:你可以根据一个体育战队或者联盟的赛场表现进行建模。你可能会深入你最爱的体育团队中,饱有兴趣的对球队个人球员的表现进行建模。当然,也许对体育的另一方面进行建模会更加的激起你的兴趣——赌博(赌博需谨慎)。除此之外,也许你的孩子或者家人每周进行得某些运动,也可能会为你提供一些问题和数据来源。
  • 游戏方面:你可以对你平时玩的游戏进行建模,不管是桌游、卡牌游戏或是电脑游戏都可以。你可以通过对其建模,预测出游戏中输赢的几率、特定的输出结果或是游戏中可能会出现的的某一步。
  • 艺术/手工方面:也许你是一个业余艺术家或手工艺人,并且将你创作的照片发布到了社交媒体上。你可以通过以访问次数和评论数据为素材来建模发现你某张特定的照片是否有被第三方喜欢或者感兴趣。因为对不同的艺术形式(绘画、音乐、纸张艺术等)可能会有不同的的主观的评价,因此你也可以使用一个类似的方法将对照组加进来一起研究。
  • 语言方面:您可以对你自己、你朋友或者是你的家人正在学的一种语言进行建模研究。如果你平时使用闪存卡的话,您也许会对为何存到闪存卡里的资料会被保存这一问题进行建模研究。你也可以对语言学习的其他方面进行建模,比如接受新鲜事物的速率或是出错的频率等,数据收集工作将会是一个有趣的挑战。
  • 摄影方面:也许你是一个观鸟者,大自然的爱好者,或者因为一些其他原因开始拍摄各种各样的自然景观。你可以以叶子/鸟类/动物的照片进行分类为问题进行建模。你也可以分析某些照片中是否有你感兴趣的东西(例如你的宠物狗或你自己的脸)等,并进行建模。

最好是使用一些你已经有数据或者随时都可以取到数据的业余爱好进行建模。

工作中的机器学习

你是否有能力拿到工作中或者和你你工作的事有关的数据呢?这可以是你的博客或者其他线上内容,也可能是你工作中的创作或发布的相关的数据。

机器学习在工作中
机器学习在工作中

(照片由BiblioArchives / LibraryArchives拍摄并保留权利。)

  • 访客方面:你可以对与你网站的访客数据有关的内容进行建模研究(可以是你自己的博客或其他网络媒体资源)。这可以是平台或浏览器等的访问者的人口统计,或是一段时间内基于发布内容的访问者的来源或页面访问量。
  • 客户方面:如同访问者一样,客户属性也是可以模拟的吗?这其中可以是购买量,购物车内容,购买时间或类似的人口统计信息。我喜欢这个领域,因为它可以消除一些你在经济方面曾认为是理所当然的事情(通过数据分析)。
  • 转化率方面:我们是否可以模拟转化率呢?这可能涉及到了时间或客户数量统计等和转化率有关的方面。这可以是对转换率链的预测,如试用,付费,追加销售等。
  • 流失率方面:对于服务行业来说,流失率是非常重要的事情,并且可能已经建模过了。有没有还没有被建模过的有关流失率的方面呢?例如说电子邮件列表的流失率或RSS订阅转载的流失率。
  • 专有数据方面:它们是你所在组织创建或访问的一些特有或者有趣的数据。你应该考虑的是这其中哪些数据可能值得建模。例如,气象数据,制造数据,采矿数据等

注意隐私问题和数据所有权。在访问数据之前,您可能需要获得他人的许可,并且必须保证结果的保密性和仅对内公开。

我希望你已经发现了能够推进你进行更深层次机器学习动力的有用的探究项目了,或者是想到了应该研究的问题了。

如果是的化,请留下评论,我很想听听你的意见。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 会造成影响的一些问题
  • 家庭生活中的机器学习
  • 兴趣爱好中的机器学习
  • 工作中的机器学习
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档