首页
学习
活动
专区
工具
TVP
发布

程序生活

专栏作者
436
文章
468263
阅读量
57
订阅数
机器学习(十三)缺失值处理的处理方法总结
1 缺失值产生的原因 机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。 人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。 2 缺失值的类型 完全随机缺失(missing completely at random,MCAR)指的是数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量。
致Great
2018-12-13
1.8K0
Stack Overflow在成长时想要成为什么?
在实际的现实生活中,我有时会被别人问到我为谋生到底在做什么事情,这是我思考15秒后的回答:
致Great
2018-12-12
6960
Python operator.itemgetter
我们用sorted对年龄进行排序,参数key传入lambda,指定要根据哪个元素进行排序
致Great
2018-12-07
5010
Pandas GroupBy的使用
在许多情况下,我们将数据分成几组,并在每个子集上应用一些功能。在应用中,我们可以执行以下操作:
致Great
2018-12-07
2.8K0
Ptyhon Pandas常用的操作
统计空值 # print(data.isnull().any()) # print(data[data.isnull().values==True]) 下面是统计空值的个数 import pandas as pd import numpy as np data={ 'a':[1,2,3,4], 'b':[3,5,np.nan,np.nan], 'c':[np.nan,0,np.nan,0], } df=pd.DataFrame(data) print(df) 创建了一个df,输出如
致Great
2018-12-04
5840
机器学习(十二)交叉验证实例
假设有个未知模型具有一个或多个待定的参数,且有一个数据集能够反映该模型的特征属性(训练集)。
致Great
2018-11-07
2.4K0
Python提取中文字符
Python提取中文字符,包含数字 import re m = re.findall('[\u4e00-\u9fa5]+', content) print(m) def translate(str): line = str.strip() # 处理前进行相关的处理,包括转换成Unicode等 pattern = re.compile('[^\u4e00-\u9fa50-9]') # 中文的编码范围是:\u4e00到\u9fa5 zh = " ".join(pattern.spl
致Great
2018-10-25
3.9K0
Tensorflow教程(十四) 命令行参数tf.flags的使用
自己查了很多关于tensorflow命令行教程,大多都和实例2相似,对于强迫症的我,忍不了,以后统一成实例1用了。
致Great
2018-10-12
1.9K0
MySQL的JOIN用法
数据库中的JOIN称为连接,连接的主要作用是根据两个或多个表中的列之间的关系,获取存在于不同表中的数据。连接分为三类:内连接、外连接、全连接。另外还有CROSS JOIN(笛卡尔积),个人认为如果要理解MySQL中JOIN的各种连接,只需要理解笛卡尔积就足够了。
致Great
2018-10-08
3.3K0
机器学习(十一)时间序列模型
AR模型(自回归模型),是统计上一种处理时间序列的方法,用同一变数例如x的之前各期,亦即x1至xt-1来预测本期xt的表现,并假设它们为一线性关系。因为这是从回归分析中的线性回归发展而来,只是不用x预测y,而是用x预测 x(自己);所以叫做自回归。
致Great
2018-10-08
3K0
k-means算法原理及实战
K-means算法是输入聚类个数k,以及包含 n个数据对象的数据库,输出满足方差最小标准k个聚类的一种算法。
致Great
2018-08-28
4000
最大连续子序列和
https://blog.csdn.net/bitcarmanlee/article/details/51526010
致Great
2018-08-28
9690
TensorFlow教程(十二) 随机数实例
tf.random_uniform([4,4], minval=-10,maxval=10,dtype=tf.float32)))返回4*4的矩阵,产生于-10和10之间的数,产生的值是均匀分布的。
致Great
2018-08-28
3800
广告和市场营销的专业用语
CPC (Cost Per Click): 按点击计费 CPA (Cost Per Action): 按成果数计费 CPM (Cost Per Mille): 按千次展现计费 CVR (Click Value Rate): 转化率,衡量CPA广告效果的指标 CVR (Conversion Rate): 转化率。是一个衡量CPA广告效果的指标,简言之就是用户点击广告到成为一个有效激活或者注册甚至付费用户的转化率。 CTR (Click Through Rate): 点击率 CTR指在搜索引擎中输入关键
致Great
2018-08-28
6820
NLP面试-最大似然估计与贝叶斯估计的区别
全概率公式为概率论中的重要公式,它将对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。
致Great
2018-08-28
3K0
NLP面试-基于矩阵分解的推荐算法(转载)
原文:https://blog.csdn.net/google19890102/article/details/51124556
致Great
2018-08-28
6870
Leetcode-Easy 852. Peak Index in a Mountain Array
题目描述 给一个数据A,其中A中第i个元素满足A[0] < A[1] < ... A[i-1] < A[i] > A[i+1] > ... > A[A.length - 1],要求找到i并返回 思路 A[i]为数组A的最大值,然后返回其在A中的索引即可 代码实现 class Solution: def peakIndexInMountainArray(self, A): """ :type A: List[int] :rtype: int
致Great
2018-08-28
1940
Leetcode-Easy 876. Middle of the Linked List
结题思路主要是通过快慢指针来找到中间节点:快指针的移动速度是慢指针移动速度的2倍,因此当快指针到达链表尾时,慢指针到达中点。
致Great
2018-08-28
3890
Leetcode-Easy 887. Projection Area of 3D Shapes
当时自己没有想到好办法,就是按部就班的分别求三个面的面积,注意求xy的面积的时候需要考虑grid[i][j]值是否为0
致Great
2018-08-28
4180
Leetcode-Easy 709. To Lower Case
因为很简单,自己尽量想多种方法来尝试实现,本来想使用ASCII码实现(chr,ord)但是太麻烦了,想来想去有回归到下面两种:
致Great
2018-08-28
2850
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档