首页
学习
活动
专区
工具
TVP
发布

数据挖掘

一个分享机器学习和大数据挖掘的栏目
专栏作者
197
文章
383055
阅读量
37
订阅数
python dataframe 一行变多行
'DataFrame' object has no attribute 'explode'
机器学习和大数据挖掘
2022-09-07
1.4K0
pandas dataframe apply 传入外部参数 args
# !/usr/bin/python3 import pandas as pd # 如果x小于threshold就等于1,否则等于0 def juege_threshold(x,threshold): return 1 if x<=threshold else 0 data_dict={"values":[1,3,5,7,9,11,13,15,17,19]} data_df=pd.DataFrame(data_dict) print(data_df) data_df["values_7"]=
机器学习和大数据挖掘
2022-05-13
2K0
plot_importance多分类、排序不匹配、图片数值不显示
model.feature_importances_的重要性排名默认使用gain,而xgb.plot_importance默认使用weight,所以:
机器学习和大数据挖掘
2022-05-10
3.4K0
【机器学习】算法原理详细推导与实现(七):决策树算法
在之前的文章中,对于介绍的分类算法有逻辑回归算法和朴素贝叶斯算法,这类算法都是二分类的分类器,但是往往只实际问题中
机器学习和大数据挖掘
2020-08-24
3000
hive排序后collect_set
首先排序:row_number() over (partition by category order by cast(duration as int) desc) duration_rank,然后拼接concat_ws(',',collect_set(category)),但是得到的结果却是乱序的,产生这个问题的根本原因自然在MapReduce,如果启动了多于一个mapper/reducer来处理数据,select出来的数据顺序就几乎肯定与原始顺序不同了。
机器学习和大数据挖掘
2020-05-28
2.8K0
conda install 下载慢 报错解决
如果清华大学镜像源里面没有这个库,那么还是会从原来的镜像https://repo.anaconda.com/pkgs/main/里面下载。
机器学习和大数据挖掘
2020-04-23
1.5K0
spark dataframe 转换 json
但是上面发现每一个key:value都放在一个括号里面,怎么把他们合并成起来?只需要文本处理一下:
机器学习和大数据挖掘
2020-04-16
2.2K0
将markdown文章包括公式图片完美导入知乎
最后使用知乎的导入markdown功能即可,实例可看【机器学习】算法原理详细推导与实现(一):线性回归
机器学习和大数据挖掘
2020-04-08
7210
【机器学习】算法原理详细推导与实现(六):k-means算法
之前几个章节都是介绍有监督学习,这个章节介绍无监督学习,这是一个被称为k-means的聚类算法,也叫做k均值聚类算法。
机器学习和大数据挖掘
2020-02-25
1.1K0
【机器学习】算法原理详细推导与实现(四):支持向量机(上)
在之前的文章中,包括线性回归和逻辑回归,都是以线性分界线进行分割划分种类的。而本次介绍一种很强的分类器【支持向量机】,它适用于线性和非线性分界线的分类方法。
机器学习和大数据挖掘
2020-02-17
6470
【机器学习】算法原理详细推导与实现(五):支持向量机(下)
这里假设数据是线性可分隔的,对于这个优化项目,给定一个训练集合,这个问题的算法会找到一个数据集合的最优间隔分类器,可以使训练样本的几何间隔最大化。
机器学习和大数据挖掘
2020-02-17
5200
scala中spark运行内存不足
发现其原因竟然是运行的时候默认的内存不足以支撑海量数据,可以用 bash spark-submit --help 中查看到自己代码的运行内存,即:
机器学习和大数据挖掘
2019-08-08
1.9K0
筛法求素数质数
埃拉托斯特尼筛法 ,简称 埃氏筛 或 爱氏筛 ,是一种由希腊数学家 埃拉托斯特尼 所提出的一种简单 检定素数 的算法。要得到自然数n以内的全部素数,必须把不大于根号n的所有素数的倍数剔除,剩下的就是素数。
机器学习和大数据挖掘
2019-08-08
1.4K0
python编译、运行、反编译pyc文件
为了加密 .py 文件,以前一般使用打包成 exe ,但是最近发现可以将其编译成二进制文件 pyc ,虽然反编译难度不大,但是也需要一些水平
机器学习和大数据挖掘
2019-08-08
7.7K0
【机器学习】算法原理详细推导与实现(二):逻辑回归
我们可能会遇到一些分类问题,例如想要划分 鸢尾花 的种类,尝试基于一些特征来判断鸢尾花的品种,或者判断上一篇文章中的房子,在6个月之后能否被卖掉,答案是 是 或者 否,或者一封邮件是否是垃圾邮件。所以这里是
机器学习和大数据挖掘
2019-07-16
5480
【机器学习】算法原理详细推导与实现(一):线性回归
今天我们这里要讲第一个有监督学习算法,他可以用于一个回归任务,这个算法叫做 线性回归
机器学习和大数据挖掘
2019-07-16
6070
爬虫之抓js教程
前面学习了如何在 get 的时候想服务器发送多变的请求数据,从而达到搜索的效果,而实际上 搜索是简单的登陆 !所以本文将要介绍如何向百度服务器发送 post 数据,从而达到模拟登陆百度的效果。
机器学习和大数据挖掘
2019-07-15
3.6K0
【机器学习】算法原理详细推导与实现(三):朴素贝叶斯
在上一篇算法中,逻辑回归作为一种二分类的分类器,一般的回归模型也是是判别模型,也就根据特征值来求结果概率。形式化表示为 \(p(y|x;\theta)\),在参数 \(\theta\) 确定的情况下,求解条件概率 \(p(y|x)\) 。通俗的解释为:在给定特定特征后预测结果出现的概率。逻辑回归的 \(y\) 是离散型,取值为 \(\{0,1\}\) 。这里将要介绍另一个分类算法 朴素贝叶斯,用以解决 \(x\) 是离散型的数据,这是判别模型,也是一个生成学习算法。
机器学习和大数据挖掘
2019-07-09
5600
爬虫之抓包教程
在初学的爬虫过程中,很多人还不知道如何抓包,怎样子抓包才能获取到所需要的信息。为了纪念【宏彦获水】成语初次面世,特地用【百度搜索】写下一篇作者常用工具的抓包教程,以供大家参考。
机器学习和大数据挖掘
2019-07-08
1.4K0
window安装jekyll
安装Ruby Ruby 切记添加环境变量: 安装 RubyGems RubyGems 解压后进入目录输入: ruby setup.rb 安装Jekyll gem install jekyll
机器学习和大数据挖掘
2019-07-02
5770
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档