腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度学习入门与实践

专栏作者

48

文章

72247

阅读量

44

订阅数

PaddlePaddle分布式训练及CTR预估模型应用

python 神经网络深度学习人工智能 bash

　　github：https://github.com/huxiaoman7/PaddleAI

2019-05-25

8310

【原】文本挖掘——特征选择

特征选择有很多方法，看了很多资料后，我总结了以下几种，以后有新内容会随时修改 1.DF——基于文档频率的特征提取方法概念：DF（document frequency）指出现某个特征项的文档的频率。步骤：1).从训练语料中统计出保函某个特征的文档频率（个数）　　 2).根据设定的阈值（min&max），当该特征的DF值小于某个阈值时，去掉。因为没有代表性。当该特征的DF值大于某个阈值时，去掉。因为这个特征使文档出现的频率太高，没有区分度。优点：降低向量计算的复杂度，去掉部分噪声，提高分类的准确率，

2018-01-09

6500

【原】python中文文本挖掘资料集合

python 数据挖掘

这些网址是我在学习python中文文本挖掘时觉得比较好的网站，记录一下，后期也会不定期添加： 1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8

2018-01-09

1.2K0

【原】Spark之机器学习(Python版)(二)——分类

机器学习 spark python

　　写这个系列是因为最近公司在搞技术分享，学习Spark，我的任务是讲PySpark的应用，因为我主要用Python，结合Spark，就讲PySpark了。然而我在学习的过程中发现，PySpark很鸡肋（至少现在我觉得我不会拿PySpark做开发）。为什么呢？原因如下：　　1.PySpark支持的算法太少了。我们看一下PySpark支持的算法:(参考官方文档) image.png 　　前面两个pyspark.sql和pyspark.streaming是对sql和streaming的支持。主要是读取数

2018-01-09

1.3K0

【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与MLlib机器学习

机器学习 spark python

本来这篇是准备5.15更的，但是上周一直在忙签证和工作的事，没时间就推迟了，现在终于有时间来写写Learning Spark最后一部分内容了。　　第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容。我们知道Spark在离线处理数据上的性能很好，那么它在实时数据上的表现怎么样呢？在实际生产中，我们经常需要即使处理收到的数据，比如实时机器学习模型的应用，自动异常的检测，实时追踪页面访问统计的应用等。Spark Streaming可以很好的解决上述类似的问题。了解Spark S

2018-01-09

1.2K0

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

spark 数据处理 python 机器学习

　　周末的任务是更新Learning Spark系列第三篇，以为自己写不完了，但为了改正拖延症，还是得完成给自己定的任务啊 = =。这三章主要讲Spark的运行过程（本地+集群），性能调优以及Spark SQL相关的知识，如果对Spark不熟的同学可以先看看之前总结的两篇文章：【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性 #####我是

2018-01-09

1.8K0

【原】Spark之机器学习(Python版)(一)——聚类

机器学习人工智能 python spark

kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包（当然自己写也很简单）。那么在Spark里能不能也直接使用sklean包呢？目前来说直接使用有点困难，不过我看到spark-packages里已经有了，但还没有发布。不过没关系，PySpark里有ml包，除了ml包，还可以使用MLlib，这个在后期会写，也很方便。　　首先来看一下Spark自带的例子： 1 from pyspark.mllib.linalg import Vectors 2 from p

2018-01-09

2.3K0

【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性

spark 大数据数据处理 python 机器学习

　　本来应该上周更新的，结果碰上五一，懒癌发作，就推迟了 = =。以后还是要按时完成任务。废话不多说，第四章-第六章主要讲了三个内容：键值对、数据读取与保存与Spark的两个共享特性（累加器和广播变量）。键值对（PaiRDD） 1.创建 1 #在Python中使用第一个单词作为键创建一个pairRDD,使用map()函数 2 pairs = lines.map(lambda x:(x.split(" ")[0],x)) 2.转化(Transformation) 转化操作很多，有reduceByKey，fo

2018-01-09

2K0

【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令

spark 大数据数据处理 python 机器学习

《Learning Spark》这本书算是Spark入门的必读书了，中文版是《Spark快速大数据分析》，不过豆瓣书评很有意思的是，英文原版评分7.4，评论都说入门而已深入不足，中文译版评分8.4，评论一片好评，有点意思。我倒觉得这本书可以作为官方文档的一个补充，刷完后基本上对Spark的一些基本概念、码简单的程序是没有问题的了。这本书有一个好处是它是用三门语言写的，Python/Java/Scala，所以适用性很广，我的观点是，先精通一门语言，再去学其他语言。由于我工作中比较常用的是Python，所以就

2018-01-09

8930

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态