首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

来看AI如何解决,基于人力资源分析 ML 模型构建全方案 ⛵

3 级大多数员工来自工作级别 1 和 2大多数员工将工作满意度评为 3 和 4大多数员工只在 1 个公司工作过大多数员工绩效等级为 3大多数员工要么没有股票期权,要么没有一级股票期权大多数员工有 5...# Age 与 attritionage=pd.crosstab(data.Age,data.Attrition)age.div(age.sum(1),axis=0).plot(kind='bar',stacked...销售部门是公司主体,研发占公司30%左右,人力资源占比最小。拥有生命科学教育背景员工数量较多,而人力资源教育背景员工数量较少。大部分员工来自销售职位,最少来自人力资源部门。大部分员工未婚。...相关性分析我们计算特征之间相关系数并绘制热力图:# 计算相关度矩阵并绘制热力图plt.figure(figsize=(20,15))sns.heatmap(data.corr(method='spearman...在建模之前,有一件非常重要事情,是我们需要选择合适评估指标对模型进行评估,这能给我们指明模型优化方向,我们在这里,针对分类问题,尽量覆盖地选择了下面这些评估指标准确度得分混淆矩阵precisionrecallF1

43341

机器学习三剑客之PandasPandas两大核心数据结构Panda数据读取(以csv为例)数据处理Pandas分组和聚合(重要)

/students_score.csv") # 数据形状 result.shape # 每列数据 类型信息 result.dtypes # 数据维数 result.ndim # 数据索引(起/始...个 print("-->后5个:") print(result.tail(5)) # 打印描述信息(实验中好用) print("-->描述信息:") print(result.describe()) Panda.../train.csv", nrows = 10) # 将数据中time转换为最小分度值为秒(s)计量单位 train["time"] = pd.to_datetime(train["time"],...unit="s") 从日期中拆分出新 # 新增列year, month, weekday train["year"] = pd.DatetimeIndex(train["time"]).year train...) # 交叉表, 表示出用户姓名,和商品名之间关系 user_goods = pd.crosstab(u_o_g["姓名"],u_o_g["goods_name"]) Pandas分组和聚合(重要)

1.8K60

从零开始学Python【38】--朴素贝叶斯模型(实战部分)

【高斯贝叶斯分类器】 面部皮肤区分数据集来自于UCI网站,该数据集含有两个部分,一部分为人类面部皮肤数据,该部分数据是由不同种族、年龄和性别人群图片转换而成;另一部分为非人类面部皮肤数据。...cm = pd.crosstab(gnb_pred,y_test) # 绘制混淆矩阵图 sns.heatmap(cm, annot = True, cmap = 'GnBu', fmt = 'd')...【多项式贝叶斯分类器】 蘑菇数据集来自于UCI网站,一共包含8 124条观测和22个变量,其中因变量为type,表示蘑菇是否有毒,剩余自变量是关于蘑菇形状、表面光滑度、颜色、生长环境等。...(X_test) # 构建混淆矩阵 cm = pd.crosstab(mnb_pred,y_test) # 绘制混淆矩阵图 sns.heatmap(cm, annot = True, cmap = '...bnb.fit(X_train,y_train) # 模型在测试数据集上预测 bnb_pred = bnb.predict(X_test) # 构建混淆矩阵 cm = pd.crosstab(bnb_pred

2.4K40

数据分析之Pandas变形操作总结

作者:耿远昊,Datawhale成员,华东师范大学 pandas 是一个强大分析结构化数据工具集;它使用基础是Numpy(提供高性能矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。...3. crosstab(交叉表) 交叉表是一种特殊透视表,典型用途如分组统计,如现在想要统计关于街道和性别分组频数: pd.crosstab(index=df['Address'],columns...交叉表功能也很强大(但目前还不支持多级分组),下面说明一些重要参数: ① values和aggfunc:分组对某些数据进行聚合操作,这两个参数必须成对出现 pd.crosstab(index=df[...结论:stack函数可以看做将横向索引放到纵向,因此功能类似与melt,参数level可指定变化列索引是哪一层(或哪几层,需要列表) df_stacked = df_s.stack(level=0)...result.equals(df_s) True 哑变量与因子化 1.

3.9K20

Helm从入门到实践

所以总结以上,我们在 k8s 中部署一个应用,通常面临以下几个问题: 如何统一管理、配置和更新这些分散 k8s 应用资源文件 如何分发和复用一套应用模板 如何将应用一系列资源当做一个软件包管理 Helm...kube-apiserver 进行更新 chart 基本结构 Helm打包格式叫做chart,所谓chart就是一系列文件, 它描述了一组相关 k8s 集群资源。...Tiller server 主要负责如下: 监听来自 Helm client 请求 通过 chart 及其配置构建一次发布 安装 chart 到Kubernetes集群,并跟踪随后发布 通过与Kubernetes...可以搜索两类不同资源: helm search hub 搜索 Artifact Hub,该仓库列出了来自不同仓库大量chart。...上述发布名称是:happy-panda

1.4K20

推荐系统为什么使用稀疏矩阵?如何使用pythonSciPy包处理稀疏矩阵

这意味着当我们在一个矩阵中表示用户(行)和行为(列)时,结果是一个由许多零值组成极其稀疏矩阵。 ? 在真实场景中,我们如何最好地表示这样一个稀疏用户-项目交互矩阵?...为什么我们不能只使用Numpy数组或panda数据流呢? 要理解这一点,我们必须理解计算两个主要约束——时间和内存。前者就是我们所知道“程序运行所需时间”,而后者是“程序使用了多少内存”。...当我们运行矩阵计算并希望将这些稀疏矩阵存储为Numpy数组或panda DataFrame时,它们也会消耗很多内存。 ?...空间复杂度 当处理稀疏矩阵时,将它们存储为一个完整矩阵(从这里开始称为密集矩阵)是非常低效。这是因为一个完整数组为每个条目占用一块内存,所以一个n x m数组需要n x m块内存。...± 5.24 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each) >>> 56 显然,当我们用稀疏模块存储一个稀疏矩阵时,可以获得时间和空间最佳性能

2.6K20

Helm从入门到实践

所以总结以上,我们在 k8s 中部署一个应用,通常面临以下几个问题: 如何统一管理、配置和更新这些分散 k8s 应用资源文件 如何分发和复用一套应用模板 如何将应用一系列资源当做一个软件包管理 Helm...进行更新 chart 基本结构 Helm打包格式叫做chart,所谓chart就是一系列文件, 它描述了一组相关 k8s 集群资源。...Tiller server 主要负责如下: 监听来自 Helm client 请求 通过 chart 及其配置构建一次发布 安装 chart 到Kubernetes集群,并跟踪随后发布 通过与Kubernetes...可以搜索两类不同资源: helm search hub 搜索 Artifact Hub,该仓库列出了来自不同仓库大量chart。...上述发布名称是:happy-panda

1.1K20

Helm从入门到实践

所以总结以上,我们在 k8s 中部署一个应用,通常面临以下几个问题: 如何统一管理、配置和更新这些分散 k8s 应用资源文件 如何分发和复用一套应用模板 如何将应用一系列资源当做一个软件包管理 Helm...进行更新 chart 基本结构 Helm打包格式叫做chart,所谓chart就是一系列文件, 它描述了一组相关 k8s 集群资源。...Tiller server 主要负责如下: 监听来自 Helm client 请求 通过 chart 及其配置构建一次发布 安装 chart 到Kubernetes集群,并跟踪随后发布 通过与Kubernetes...可以搜索两类不同资源: helm search hub 搜索 Artifact Hub,该仓库列出了来自不同仓库大量chart。...上述发布名称是:happy-panda

95210

【原创干货】6000字、22个案例详解Pandas数据分析预处理时实用技巧,超简单

有时候我们想要改变行索引名称或者是列方向名称,我们则可以这么做 pd.crosstab(df['省份'], df['顾客类型'], colnames = ['顾客类型'],...下面我们指定聚合函数,并且作用在我们指定列上面,用到参数是aggfunc参数以及values参数,代码如下 pd.crosstab(df['省份'], df['顾客类型'],..., 1480195805, 1490195805], 'value': [2, 3, 4]}) pd.to_datetime(df['date'], unit='s'...00:00:00') 亦或是 pd.to_datetime('2022/01/12 11:20:10', format='%Y/%m/%d %H:%M:%S') output...) %m 表示是月份(01-12) %d 表示是一个月当中一天(0-31) %H 表示是24小时制小时数 %I 表示是12小时制小时数 %M 表示是分钟数 (00-59) %S 表示是秒数

1.4K10

泰坦尼克号幸存预测

性别中男性最多, 达到577人次; 船票中681种, 总数891, 部分人共用一张票; 舱位总数204, 缺失占比(891-204)/891= 77%; 登船港口总数889, 缺失2个, 共有3种类型, 其中S最多...用数据说话: import numpy as np import matplotlib.pyplot as plt #生成Pclass_Survived列联表 Pclass_Survived = pd.crosstab...2个, 且数据中S最多, 达到644个, 占比644/891=72%, 那么我们就采用众数进行填充. train['Embarked'] = train['Embarked'].fillna(train...Survived']) Embarked_Survived.plot(kind = 'bar') plt.title('Survived status by Embarked')  C港生存机会明显高于Q港, S港...Embarked是定类变量, 转化为定量变量. train['Embarked'] = train.Embarked.map({'S': 0, 'C': 1, 'Q': 2})  现有特征:  PassengerId

1.1K21

使用机器学习和Python揭开DNA测序神秘面纱

由于机器学习或深度学习模型要求输入必须是特征矩阵或数字值,但目前我们仍然以字符或字符串格式存储数据。因此,下一步是将这些字符编码为矩阵。...单词袋 下面开始进行机器学习 现在,我们已经学习了如何从DNA序列中提取特征矩阵,让我们将我们新获得知识应用于机器学习用例。 ?...基因家族是一组具有共同祖先相关基因。基因家族成员可以是旁系同源物或直系同源物。基因旁系同源物是来自相同物种具有相似序列基因,而基因直系同源物是在不同物种中具有相似序列基因。...human_texts[item])#separate labels y_human = human_dna.iloc[:, 0].values # y_human for human_dna#Now let's...结论 在本文中,我们学习了如何分析DNA序列数据,如何对其进行可视化,以及如何使用不同编码技术将这些序列表示为矩阵

2K21
领券