机器学习几个基本的问题

关键词:机器学习、推荐系统、文本挖掘

正文如下:

从今年四月份到现在已经工作快9个月了,最开始是做推荐系统,然后做机器学习,现在是文本挖掘,每个部分研究的时间都不多,但还是遇到了很多问题,目前就把一定要总结的问题总结一下,以后有时间多看看,提醒自己看有没有解决。

推荐系统:

  1.冷启动热启动区别和联系?各个阶段需要的算法?

  2.每个算法的数学推导、适用情况、优缺点、改进方法、数据类型?

  3.如何平衡热启动时的准确率和召回率,两者不可能同时高,怎么平衡?从算法本身还是业务层面?惊喜度怎么添加?

  4.如何评价推荐系统的好坏?指标是啥?

机器学习:

  1.能解决哪几类问题?(分类聚类回归预测?)每一类型会有哪些算法?

  2.每个算法优缺点各是什么?各能解决什么问题?侧重点是什么?对数据的平衡性要求大吗?对初始值敏感吗?需要的数据类型是什么?(数值 or 类别?或者混合使用?)

  3.每个算法是如何推导的?如果要调优要从哪些步骤着手?目前的局限是什么?(背后的数学依据)各个算法之间的联系和区别是啥?各算法之间可以结合吗?瓶颈和局限是什么?

  4.python的scikit-learn包是不是都熟悉了,源码有没有看过?自己尝试把每个算法写一下,看看和scikit-learn包跑起来有没有区别?精确度是否会提高?

  5.每个算法的评价指标是什么?(精确度召回度f1-score还有别的吗?)可视化有哪些方法?(ROC曲线?目前只知道这个,还有其他的吗?)

文本挖掘

  1.基本步骤是啥?(清洗数据(缺失值、噪音数据、平滑处理)--->中文分词(各种方法)--->特征提取(tfidf还有其他几种方法) --->特征选择(卡方互信息发IG法等等)--->用机器学习算法跑)有没有漏的?或者有没有哪些步骤还有补充的可以提高精度的?

  2.各个步骤之间各有哪种方法?每种方法区别和联系?数学推导是什么?有没有可以改进的地方?有没有新的方法可以自己造的?

  3.数据编码转码不容忽视,不要忘记“不可见字符”(windows--->linux系统时候容易出现的问题)

  这是工作到现在觉得必须要解决的问题,以后有新的发现再补充。关于这些问题的解决,不定期的在博客里发出来,不断修改,不断添加,总之,学习是个不断迭代的过程,fighting!:)

点击“阅读原文”可获得学习攻略 | 机器学习路线图。

END.

来源:http://www.cnblogs.com/charlotte77/

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2018-03-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

CNN实现“读脑术”,成功解码人脑视觉活动,准确率超50%

【新智元导读】研究人员开发出以人脑为模型的深度学习算法,来破解人类大脑。相关研究发表在最新一期Cerebral Cortex,研究人员构建了一个大脑如何解码信息...

34870
来自专栏AI科技评论

ACL2016最佳论文:CNN/日常邮件阅读理解任务的彻底检查

摘要 NLP尚未解决的核心目标是,确保电脑理解文件回答理解问题。而通过机器学习系统,解决该问题的一大阻碍是:人类-注释数据的可用性有限。Hermann等人通过生...

32440
来自专栏PPV课数据科学社区

人人都应该掌握的9种数据分析思维-深度学习世界

说到数据分析,啤酒和尿布的例子大家应该都听腻了。再具体、深入一些的内容,往往因为数学就令很多人望而却步了。给大家分享9个不带数学推导的数据分析思路,希望大家能喜...

347120
来自专栏ATYUN订阅号

使用深度学习实现iPhone X的FaceID

AiTechYun 编辑:yuxiangyu ? 新款iPhone X最热门功能之一就是新的解锁方法:FaceID。由于创建了无边框手机,苹果不得不开发一种能简...

40090
来自专栏企鹅号快讯

对比TensorFlow提升树与XGBoost:我们该使用怎样的梯度提升方法

选自Nicolo Blog 作者:Nicolò Valigi 机器之心编译 参与:蒋思源 几个月前,TensorFlow 发布了梯度提升方法的调用接口,即 Te...

37890
来自专栏大数据文摘

Kaggle大神带你上榜单Top2%:点击预测大赛纪实(上)

28430
来自专栏机器人网

智能机器人语音识别技术

语音控制的基础就是语音识别技术,可以是特定人或者非特定人的。非特定人的应用更为广泛,对于用户而言不用训练,因此也更加方便。语音识别可以分为孤立词识别,连接词识别...

73350
来自专栏人工智能头条

大四学生整理:一份“不完美”的数据科学问答清单

14160
来自专栏深度学习入门与实践

【原】机器学习几个基本的问题

  从今年四月份到现在已经工作快9个月了,最开始是做推荐系统,然后做机器学习,现在是文本挖掘,每个部分研究的时间都不多,但还是遇到了很多问题,目前就把一定要总结...

22390
来自专栏AI科技大本营的专栏

实战 | 深度学习轻松学:如何用可视化界面来部署深度学习模型

翻译 | AI科技大本营 参与 | 王赫 上个月,我有幸结识了 DeepCognition.ai 的创始人。 Deep Cognition (深度认知) 建立的...

385100

扫码关注云+社区

领取腾讯云代金券