第六章 POI实体链接 ? 第七章 评论挖掘 ? 第八章 O2O场景下的查询理解和用户引导 ? 第九章 O2O场景下排序的特点 ? 第十章 推荐在O2O场景中的应用 ? 第十三章 深度学习概述 ? 第十四章 深度学习在文本领域中的应用 ? 第十五章 深度学习在计算机视觉中的应用 ? 第十六章 大规模机器学习 ? 第十七章 特征工程和实验平台 ?
一键领取预热专享618元代金券,2核2G云服务器爆品秒杀低至18元!云产品首单低0.8折起,企业用户购买域名1元起…
9.行业其他公司如阿里巴巴的一些AI试点业务展望 腾讯网媒机器学习实战.pdf
不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。 我们结合美团在机器学习上的实践,介绍机器学习在解决工业界问题的实战中所需的基本技术、经验和技巧。 下文分为1)机器学习的概述,2)对问题建模,3)准备训练数据,4)抽取特征,5)训练模型,6)优化模型,7)总结 共7个章节进行介绍。 机器学习的概述: 什么是机器学习? 随着机器学习在实际工业领域中不断获得应用,这个词已经被赋予了各种不同含义。 对问题建模 本文以DEAL(团购单)交易额预估问题为例(就是预估一个给定DEAL一段时间内卖了多少钱),介绍使用机器学习如何解决问题。
机器学习(十八) ——SVM实战 (原创内容,转载请注明来源,谢谢) 一、概述 本篇主要用python来实现SVM算法,并用SVM算法进行预测分类结果。 但是如果是第一次选择,那就随机选择一个即可。 这里可以看到,当通过SMO算法,得到α和b后,实际上已经不需要再次用训练数据进行训练,下面代码中的训练和测试实际上可以理解成两次的测试过程。 下面是执行结果的部分截图。 六、总结 支持向量机,是一个比较有趣的算法,经过这几天的学习,我对里面的大部分的公式和编码过程有了大致的了解,具体的细则还没了解的那么透,后面还会继续深入学习。接下来可以迈入新的学习内容了。 我感觉学习的过程,还是贵在坚持,而且要静下心来。对于看不懂的内容,多查资料;对于数学公式,自己一步步去推导;对于代码,一行行去看。慢慢的就会有种融会贯通的感觉。
本文介绍了美团网推荐系统的构建和优化过程中的一些做法,包括数据层、触发层、融合过滤层和排序层五个层次,采用了HBase、Hive、storm、Spark和机器学习等技术。 美团作为国内发展较快的O2O网站,有着大量的用户和丰富的用户行为,这些为推荐系统的应用和优化提供了很好的条件。本文由美团技术团队成员撰写,介绍其推荐系统的构建和优化过程中的一些做法。 框架 ? 排序层主要是利用机器学习的模型对触发层筛选出来的候选集进行重排序。 同时,对与候选集触发和重排序两层而言,为了效果迭代是需要频繁修改的两层,因此需要支持ABtest。 只是根据算法的历史效果决定算法产生的item的位置显得有些简单粗暴,同时,在每个算法的内部,不同item的顺序也只是简单的由一个或者几个因素决定,这些排序的方法只能用于第一步的初选过程,最终的排序结果需要借助机器学习的方法 因此在更新周期上也可以做的更短,还可以结合业务做一些在线学习的尝试。在我们的实践中,非线性模型和线性模型都有应用。
,理论是非常重要的内容,但是持续的理论学习多少会有些审美疲劳,如果读者已经初步学习了之前介绍的关于机器学习的内容的话,那么到这篇文章出现的时候,也至少已经了解了两个机器学习中最简单的模型,“线性回归”和 因此今天,我们就试着用代码来简单实现一下逻辑回归,也方便大家更好地理解逻辑回归的原理,以及机器学习模型在实践中是怎么运作的。 这里我用的数据集是来自Peter Harrington《机器学习实战》第五章上的数据集,github链接(https://github.com/pbharrin/machinelearninginaction 《机器学习实战》,人民邮电出版社 数据集来源 Github:Peter Harrington(https://github.com/pbharrin/machinelearninginaction) 本章数据集来源 :Ch5 周志华著.机器学习, 清华大学出版社 李航著.统计学习方法, 清华大学出版社
相信大家或多或少都了解到一些机器学习的相关技术和算法了,有些同学可能也用过一些算法,然后就感觉自己可以称之为"懂机器学习"了。 我曾经也是这么认为的,但是后来发现真正懂机器学习的人是确实知道如何高效运用的,而另一些人,像我这种,其实并没有完全理解,所以总是把时间浪费在一些毫无意义的尝试上面。 这实际上并不是所有天鹅都有的特征,只是局部样本的特征。机器在学习全局特征的同时,又学习了局部特征,这才导致了不能识别黑天鹅的情况。 机器在学习过程中是无法区别局部特征和全局特征的,学习的局部特征比重越多,那么新样本中不具有这些局部特征但具有所有全局特征的样本也越多,于是机器能识别到的正确样本的概率就会下降,也就是所谓的"泛化性"变差 解决过拟合的方法,其基本原理就是限制机器的学习,使机器学习特征时学得不那么彻底,因此这样就可以降低机器学到局部特征和错误特征的几率,使得识别正确率得到优化。
python机器学习实战(一) 版权声明:本文为博主原创文章,转载请指明转载地址 www.cnblogs.com/fydeblog/p/7140974.html 前言 这篇notebook是关于机器学习中监督学习的 操作系统:ubuntu14.04 运行环境:anaconda-python2.7-notebook 参考书籍:机器学习实战 notebook writer ----方阳 k- ,所以我们需要一个img2vector函数去实现这个功能! 该系统实现的方法与前面的约会网站的类似,就不多说了。 print "\nthe total error rate is: %f" % (errorCount/float(mTest)) 结尾 至此,这个k-近邻算法的介绍到这里就结束了,希望这篇文章对你的学习有帮助
python机器学习实战(二) 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7159775.html 前言 这篇notebook 是关于机器学习监督学习中的决策树算法,内容包括决策树算法的构造过程,使用matplotlib库绘制树形图以及使用决策树预测隐形眼睛类型. 操作系统:ubuntu14.04(win也ok) 运行环境:anaconda-python2.7-jupyter notebook 参考书籍:机器学习实战和源码 notebook writer ,由于代码中多次用到这个值,为了提高代码效率,我们显式地声明一个变量保存实例总数. classCount.iteritems(), key=operator.itemgetter(1), reverse=True) return sortedClassCount[0][0] 这个函数在实战一中的一个函数是一样的
python机器学习实战(三) 版权声明:本文为博主原创文章,转载请指明转载地址 www.cnblogs.com/fydeblog/p/7277205.html 前言 这篇博客是关于机器学习中基于概率论的分类方法 操作系统:ubuntu14.04 运行环境:anaconda-python2.7-jupyter notebook 参考书籍:机器学习实战和源码,机器学习(周志华) notebook writer -- 3.3 测试算法:根据现实情况修改分类器 利用贝叶斯分类器进行文档文类时,要计算每个元素的条件概率并相乘,若其中有一个概率值等于0,那么最后的乘积也为0,为降低这种影响,可以将所有词的出现数初始化为1 使用朴素贝叶斯分类器从个人广告中获取区域倾向 在这个最后的例子当中,我们将分别从美国的两个城市中选取一些人,通过分析这些人发布的征婚广告信息,来比较这两个城市的人们在广告用词上是否不同。 如果结论确实是不同,那么他们各自常用的词是哪些?从人们的用词当中,我们能否对不同城市的人所关心的内容有所了解? 下面将使用来自不同城市的广告训练一个分类器,然后观察分类器的效果。
python机器学习实战(四) 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364317.html 前言 这篇notebook 是关于机器学习中logistic回归,内容包括基于logistic回归和sigmoid分类,基于最优化方法的最佳系数确定,从疝气病症预测病马的死亡率。 操作系统:ubuntu14.04 运行环境:anaconda-python2.7-jupyter notebook 参考书籍:机器学习实战和源码 notebook writer ----方阳 注意事项 一种改进方法是一次仅用一个样本点来更新回归系数, 该方法称为随机梯度上升算法。 由于可以在新样本到来时对分类器进行增量式更新,因而随机梯度上升算法是一个在线学习算法。 方法如下: 下面给出了一些可选的做法: □ 使用可用特征的均值来填补缺失值; □ 使用特殊值来补缺失值,如 -1; □ 忽略有缺失值的样本; □ 使用相似样本的均值添补缺失值; □ 使用另外的机器学习算法预测缺失值
原文链接:www.cnblogs.com/fydeblog/p/7277205.html 前言 这篇博客是关于机器学习中基于概率论的分类方法--朴素贝叶斯,内容包括朴素贝叶斯分类器,垃圾邮件的分类,解析 操作系统:ubuntu14.04 运行环境:anaconda-python2.7-jupyter notebook 参考书籍:机器学习实战和源码,机器学习(周志华) notebook writer -- 使用朴素贝叶斯分类器从个人广告中获取区域倾向 在这个最后的例子当中,我们将分别从美国的两个城市中选取一些人,通过分析这些人发布的征婚广告信息,来比较这两个城市的人们在广告用词上是否不同。 如果结论确实是不同,那么他们各自常用的词是哪些?从人们的用词当中,我们能否对不同城市的人所关心的内容有所了解? 下面将使用来自不同城市的广告训练一个分类器,然后观察分类器的效果。 flowToken=1007319 加入python学习讨论群 78486745 ,获取资料,和广大群友一起学习。 [sitl15b2bn.png]
原文链接:https://www.cnblogs.com/fydeblog/p/7364317.html 前言 这篇notebook是关于机器学习中logistic回归,内容包括基于logistic回归和 操作系统:ubuntu14.04 运行环境:anaconda-python2.7-jupyter notebook 参考书籍:机器学习实战和源码 notebook writer ----方阳 注意事项 一种改进方法是一次仅用一个样本点来更新回归系数, 该方法称为随机梯度上升算法。 由于可以在新样本到来时对分类器进行增量式更新,因而随机梯度上升算法是一个在线学习算法。 所以我们采用一些方法来解决这个问题,方法如下: 下面给出了一些可选的做法: 使用可用特征的均值来填补缺失值; 使用特殊值来补缺失值,如 -1; 忽略有缺失值的样本; 使用相似样本的均值添补缺失值; 使用另外的机器学习算法预测缺失值 flowToken=1007319 加入python学习讨论群 78486745 ,获取资料,和广大群友一起学习。 [sitl15b2bn.png]
原文链接:www.cnblogs.com/fydeblog/p/7140974.html 前言 这篇notebook是关于机器学习中监督学习的k近邻算法,将介绍2个实例,分别是使用k-近邻算法改进约会网站的效果和手写识别系统 操作系统:ubuntu14.04 运行环境:anaconda-python2.7-notebook 参考书籍:机器学习实战 notebook writer ----方阳 k-近邻算法 该系统实现的方法与前面的约会网站的类似,就不多说了。 print "\nthe total error rate is: %f" % (errorCount/float(mTest)) 结尾 至此,这个k-近邻算法的介绍到这里就结束了,希望这篇文章对你的学习有帮助 flowToken=1007319 加入python学习讨论群 78486745 ,获取资料,和广大群友一起学习。 [sitl15b2bn.png]
原文链接:https://www.cnblogs.com/fydeblog/p/7159775.html 前言 这篇notebook是关于机器学习监督学习中的决策树算法,内容包括决策树算法的构造过程,使用 操作系统:ubuntu14.04(win也ok) 运行环境:anaconda-python2.7-jupyter notebook 参考书籍:机器学习实战和源码 notebook writer 先举一个小例子,让你了解决策树是干嘛的,简单来说,决策树算法就是一种基于特征的分类器,拿邮件来说吧,试想一下,邮件的类型有很多种,有需要及时处理的邮件,无聊时观看的邮件,垃圾邮件等等,我们需要去区分这些 classCount.iteritems(), key=operator.itemgetter(1), reverse=True) return sortedClassCount[0][0] 这个函数在实战一中的一个函数是一样的 flowToken=1007319 加入python学习讨论群 78486745 ,获取资料,和广大群友一起学习。 [sitl15b2bn.png]
机器学习实战-2-K近邻算法 本文中介绍的机器学习中最基础的一个算法:k-近邻算法,将从如下方面展开: ? 机器学习中向量距离度量准则 下面? 列举了机器学习中常用的向量距离度量准则: 欧式距离 曼哈顿距离 切比雪夫距离 马氏距离 巴氏距离 汉明距离 皮尔逊系数 信息熵 图解过程 通过下面的一组图形来解释KNN算法的思想。 下面给出实际的Python3的代码。 参考资料 1、《机器学习实战》一书 2、机器学习实战教程(一):K-近邻算法(史诗级干货长文) 3、《统计学习方法》-李航老师
云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。 腾讯云服务器(CVM)为您提供安全可靠的弹性云计算服务。只需几分钟,您就可以在云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。
扫码关注云+社区
领取腾讯云代金券