前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【挑战】机器学习在互联网应用面临的 10 大挑战

【挑战】机器学习在互联网应用面临的 10 大挑战

作者头像
陆勤_数据人网
发布2018-02-26 10:25:16
8810
发布2018-02-26 10:25:16
举报
文章被收录于专栏:数据科学与人工智能

小编邀请您,先思考:

  • 您在使用机器学习的的挑战是什么?
  • 机器学习能做什么?不能做什么?

1: “数据稀释性”:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏。比如,我们想训练一个模型表征某人 “购物兴趣”,但是这个人在网站上浏览行为很少,购物历史很少,很难训练出一个 “meaningful model” 来预测应该给这个人推荐什么商品等 …

2:“不平稳随机过程产生的数据”:机器学习模型往往假设数据的产生是 “平稳随机过程”。但是有些互联网数据(比如 spam 邮件,spam 网站等)的产生是动态的,不平稳随机过程 …

3~4:高数量和高质量 “标定数据” 是机器学习效果的保障,但是获取标定数据需要耗费大量人力和财力。而且,人会出错,人有主观性。如何获取高数量和高质量标定数据,或者用机器学习方法只标定 “关键” 数据 (active learning) 值得深入研究 …

5:”Scalability” 是互联网的核心问题之一。搜索引擎索引的重要网页超过 100 亿: 如果1台机器每秒处理1000 网页,需要至少100天。所以出现了 MapReduce, MPI, Spark, Pegasus, Pregel, Hama … 等分布式计算构架。选择什么样的计算平台,和算法设计紧密相关 …

6:“速度” 是互联网核心的用户体验。线下模型训练可以花费很长时间:比如,Google 某个模型更新一次需要几千台机器,大约训练半年时间。但是,线上使用模型的时候 要求一定要 “快,实时 (real-time)” …

7: 互联网 每时每刻 都在产生大量新数据,要求模型随之不停更新,所以 “online learning” 是机器学习的一个重要研究方向。人也是一样: Life is an online learning process … “online learning” 也是人最重要的能力之一

8:“Cold- Start” (冷启动) 是互联网应用的典型问题:一个好互联网产品,用的人多,得到的数据多;得到的数据越多,模型训练的越好,产品会变得更好用,用的人就会更多 … 进入 “良性循环”。对于一个新产品,在初期,要面临数据不足的 “冷启动” 问题 …

9: 机器学习之美在于对于不同的问题需要不同建模方法。我去给讲座的时候,经常听有人说:“SVM 做过,Naive Bayes 做过 … 但效果不好”;做过很简单,但能否 “做到极致”? 这个世界你能想到别人想不到的事情概率极低,只有一件你花十倍努力做到极致的事情!

10:“Human + Machine” 机器学习应用在一个特定领域,需要特定领域的专家知识:机器学习应用在 “医学”,需要一个经验丰富的医生;应用在 “股票”,需要一个有10年以上经验的操盘手;应用在 “互联网”,需要一个上网时间超过 1万小时的 PM …

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-02-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档