首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据导入与预处理-课程总结-04~06章

插补缺失 2.1.5 案例 2.3 重复处理 2.3.1 重复的检测 2.3.2 重复的处理 2.3.3 重复处理案例 2.4 异常值处理 2.4.1 异常值的检测 1. 3σ原则 2.箱型图检测...如果都赋值,就会实现两个参数的组合功能。 encoding:表示指定的编码格式。...=None, downcast=None) method:表示填充的方式,默认None。...,通过这些函数与方法可以将Series对象或DataFrame对象进行符合各种逻辑关系的合并操作,合并后生成一个整合的Series或DataFrame对象。...’inner’或’outer’(默认),其中’inner’表示内连接,即合并结果多个对象重叠部分的索引及数据,没有数据的位置填充NaN;'outer’表示外连接,即合并结果多个对象各自的索引及数据

13K10

机器学习算法基础:层 次 聚 详 解

聚合聚: 开始将每个样本各分到一个,之后将距离相近的两合并,建立一个新的,重复此操作直到满足停止条件,得到层次化的类别。 ?...affinity:用于指定样本间距离的衡量指标,可以是欧氏距离、曼哈顿距离、余弦相似度等,默认为'euclidean';如果参数linkage'ward',该参数只能设置欧氏距离。...compute_full_tree:通常情况下,当聚过程达到n_clusters时,算法就会停止,如果该参数设置True,表示算法将生成一棵完整的凝聚树。...linkage:用于指定簇间距离的衡量指标,默认为'ward',表示最小距离法;如果'complete',表示使用最大距离法;如果'average',表示使用平均距离法。 ?...层次聚案例 层次聚还是比较简单易用的,下面是经典的鹫尾花数据集。每朵鸢尾花有4个数据,分别为萼片长(单位:厘米)、萼片宽(单位厘米)、花瓣长度(单位厘米)和花瓣宽(单位厘米)。

1.8K10
您找到你想要的搜索结果了吗?
是的
没有找到

机器学习算法基础:层 次 聚 详 解

聚合聚: 开始将每个样本各分到一个,之后将距离相近的两合并,建立一个新的,重复此操作直到满足停止条件,得到层次化的类别。 ?...affinity:用于指定样本间距离的衡量指标,可以是欧氏距离、曼哈顿距离、余弦相似度等,默认为'euclidean';如果参数linkage'ward',该参数只能设置欧氏距离。...compute_full_tree:通常情况下,当聚过程达到n_clusters时,算法就会停止,如果该参数设置True,表示算法将生成一棵完整的凝聚树。...linkage:用于指定簇间距离的衡量指标,默认为'ward',表示最小距离法;如果'complete',表示使用最大距离法;如果'average',表示使用平均距离法。 ?...层次聚案例 层次聚还是比较简单易用的,下面是经典的鹫尾花数据集。每朵鸢尾花有4个数据,分别为萼片长(单位:厘米)、萼片宽(单位厘米)、花瓣长度(单位厘米)和花瓣宽(单位厘米)。

32530

深入理解pandas读取excel,txt,csv文件等命令

未指定的中间行将被删除(例如,跳过此示例中的2行) index_col(案例1) 默认为None 用列名作为DataFrame的行标签,如果给出序列,使用MultiIndex。...,数据列名行以下的数据;若数据不含列名,设定 header = None; names 指定列的名字,传入一个list数据 index_col 指定列为索引列,也可以使用u”strings” ,如果传递一个列表...可接受的None或xlrd converters 参照read_csv即可 其余参数 基本和read_csv一致 pandas 读取excel文件如果报错,一般处理 错误:ImportError...None,字符串可以为URL,例如file://localhost/path/to/table.json orient (案例1) 预期的json字符串格式,orient的设置有以下几个:1....True convert_dates 解析日期的列列表;如果True,尝试解析类似日期的列,默认True参考列标签it ends with '_at',it ends with '_time',

12.1K40

深入理解pandas读取excel,tx

未指定的中间行将被删除(例如,跳过此示例中的2行) index_col(案例1) 默认为None 用列名作为DataFrame的行标签,如果给出序列,使用MultiIndex。...,数据列名行以下的数据;若数据不含列名,设定 header = None; names 指定列的名字,传入一个list数据 index_col 指定列为索引列,也可以使用u”strings” ,如果传递一个列表...可接受的None或xlrd converters 参照read_csv即可 其余参数 基本和read_csv一致 pandas 读取excel文件如果报错,一般处理 错误:ImportError...None,字符串可以为URL,例如file://localhost/path/to/table.json orient (案例1) 预期的json字符串格式,orient的设置有以下几个:1....True convert_dates 解析日期的列列表;如果True,尝试解析类似日期的列,默认True参考列标签it ends with '_at',it ends with '_time',

6.1K10

数据导入与预处理-第6章-01数据集成

如果一个属性能由另一个或另一组属性“推导”出,这个属性可能是冗余的。属性命名不一致也会导致结果数据集中的冗余,属性命名会导致同一属性多次出现。...=None, names=None, verify_integrity=False, sort=None, copy=True) 参数含义如下: join:表示合并的方式,可以取值...’inner’或’outer’(默认),其中’inner’表示内连接,即合并结果多个对象重叠部分的索引及数据,没有数据的位置填充NaN;'outer’表示外连接,即合并结果多个对象各自的索引及数据...重叠合并数据是一种并不常见的操作,它主要将一组数据的空填充另一组数据中对应位置的。pandas中可使用combine_first()方法实现重叠合并数据的操作。...combine_first(other) 参数含义如下: other参数:表示填充空的Series或DataFrame对象。

2.5K20

【力扣算法04】之合并 K 个升序链表- python

最后,在主方法 mergeKLists 中,判断链表数组 lists 是否空,如果空,直接返回 None。...第2块: if not lists: return None 判断链表数组 lists 是否空,如果空,直接返回 None。...该函数用于合并两个有序链表。首先判断链表 l1 是否空,如果空,直接返回链表 l2。然后判断链表 l2 是否空,如果空,直接返回链表 l1。...if not lists::判断链表数组 lists 是否空。如果空,直接返回 None。 n = len(lists):获取链表数组的长度。...if not l1::判断链表 l1 是否空。如果空,直接返回 l2。 if not l2::判断链表 l2 是否空。如果空,直接返回 l1。

12410

06-老马jQuery教程-jQuery高级

回调函数拥有两个参数:第一个对象的成员或数组的索引,第二个对应变量或内容。如果需要退出 each 循环可使回调函数返回 false,其它返回将被忽略。...第一个参数当前元素,第二个参数而元素索引。...invert:如果 "invert" false 或为设置,函数返回数组中由过滤函数返回 true 的元素,当"invert" true,返回过滤函数中返回 false 的元素集。...如果不指定target,给jQuery命名空间本身进行扩展。这有助于插件作者jQuery增加新方法。 如果第一个参数设置true,jQuery返回一个深层次的副本,递归地复制找到的任何对象。...objectN:待合并到第一个对象的对象。 deep:如果设为true,递归合并。 示例 // 合并 settings 和 options,修改并返回 settings。

1.8K00

【Python数据结构系列】☀️《查找、排序-基础知识》——知识点讲解+代码实现☀️

折半查找的查找过程:从表的中间记录开始,如果给定和中间记录的关键字相等,查找成功;如果给定大于或者小于中间记录的关键字,则在表中大于或小于中间记录的那一半中查找,这样重复操作,直到查找成功,或者在某一步中查找区间空...定义一个初始的left=0,right=n-1,然后计算中间mid=(left+right)/2(整除),然后判断出中间元素与我们查找的元素的关系,如果一致查找成功,如果不一致更新left和right...如果再自上而下的查找过程中,找到了key的关键字,查找成功;如果直到叶子结点也未找到,查找失败。...mb_treeNone生成初始根(此时q=None, i=);否则q指向某个最下层非终端结点,key应插在该结点 中q.keys[i+1]处,插入后如果q.key_num > m-...例如设计电话簿案例中的哈希函数:每个名字的姓的首字母的 ASCII 即为对应的电话号码的存储位置。

44310

CSS重要的盒子模型

:没有边框即忽略所有边框的宽度(默认) solid:边框单实线(最为常用的) dashed:边框虚线 dotted:边框点线 边框综合设置 border : border-width || border-style...如果没有给一个盒子指定宽度, 此时,如果给这个盒子指定padding, 则不会撑开盒子。...相邻块元素垂直外边距的合并 当上下相邻的两个块元素相遇时,如果上面的元素有下外边距margin-bottom 下面的元素有上外边距margin-top,他们之间的垂直间距不是margin-bottom...与margin-top之和 取两个中的较大者这种现象被称为相邻块元素垂直外边距的合并(也称外边距塌陷)。...嵌套块元素垂直外边距的合并(塌陷) 对于两个嵌套关系的块元素,如果父元素没有上内边距及边框 父元素的上外边距会与子元素的上外边距发生合并 合并后的外边距两者中的较大者 ?

98620

数据导入与预处理-第4章-pandas数据获取

typ:指定将JSON文件转化的格式,(series or frame),默认为frame dtype:如果True,推断数据类型,如果将列的dict转换为数据类型,使用它们,如果False,根本不推断数据类型...如果分析日期,分析默认的datelike列 numpy:默认为False,直接解码到numpy阵列。仅支持数字数据,但不支持非数字列和索引标签。...还要注意,如果numpy=True,每个术语的JSON顺序必须相同。 precise_float:boolean类型,默认False。设置在将字符串解码双倍时启用更高精度(STROD)函数。...如果“无”,文件将一次全部读入内存。 compression:{‘infer’, ‘gzip’, ‘bz2’, ‘zip’, ‘xz’, None},默认为infer。用于实时解压缩磁盘数据。...如果“推断”,使用gzip、bz2、zip或xz,如果path\u或\u buf是以“”结尾的字符串。gz','。bz2’,”。zip”或“xz”,否则不进行解压缩。

4K31

Sklearn参数详解—聚算法

copy_x:主要起作用于提前计算距离的情况,默认是True,如果是True,表示在源数据的副本上提前计算距离时,不会修改源数据。...具体步骤 先建立几个集合,一个用来存储核心对象的集合Ω,初始是空集;再初始化一个k,用来存放簇的类别数,初始0;再新建一个集合Γ,用来存放未被使用的样本,初始全部样本集D。...遍历所有样本集中的每个样本点p,判断其是否满足核心对象的条件,如果满足,把该点加入到核心对象集合Ω中;如果没有样本点满足核心对象条件,结束遍历。...判断核心对象集合Ω是否空,如果空,算法结束;如果不为空,则在集合Ω中随机选取一个样本点,将该点密度可达的所有样本点划分为一个簇,这个簇的样本集合称为Ck ,将簇的类别数k+1,未被使用样本Γ-Ck...algorithm='auto', leaf_size=30, p=None, n_jobs=1) eps:即邻域中的r,可以理解圆的半径。

1.6K30

tf.summary

使用相同的共享资源名称(默认范围logdir)在此会话中编写摘要。如果不存在这样的资源,将使用此构造函数的其余参数创建一个,但是如果已经存在这些参数,忽略它们。参数:logdir: 一个字符串。...op使用两种不同的归一化算法:如果所有的输入都是正数,那么就对它们进行重新排序,使最大的255。如果任何输入负,将被移动,因此输入0.0位于127。...输出摘要中的Summary.Value的protobufs根据名称生成,后缀取决于max_output设置:如果max_output1,summary value标记为'name/image'。...返回如果没有收集摘要,返回None。否则返回字符串类型的标量张量,其中包含合并后的序列化摘要协议缓冲区。...如果没有设置此使用节点名。返回:字符串类型的标量张量。序列化的摘要协议缓冲区。10、tf.summary.text()函数总结了文本数据。

2.5K61

Python实现霍夫曼树

or node.right_child is not None 先创建一个节点 Node,用于创建霍夫曼树的节点,这里要注意一点,因为在构造霍夫曼树时,要不断从一个森林中选根节点最小的两棵树进行合并...,所以在节点里添加一个标志位,is_in_tree,如果 True 表示该树已经合并到霍夫曼树中了,不会重复取。...构造霍夫曼树时会给定 N 个权如果 N=2,先将这 N 个权作为根节点的权构建一个包含 N 棵树的森林,再从森林中选根节点权最小的两棵树进行合并,一直循环直到只剩一棵树。...代码里为了方便处理,并没有将被合并的树从列表 woods 中删除(删除操作很麻烦,尤其权相等时),而是通过修改根节点的标志位 is_in_tree,如果 is_in_tree True,表示该树已经被合并

83620

Python3内置函数表.md

isinstance(object, classinfo #判断是否是实例化对象 如果第一个参数不是对象返回False,第二个参数不是或者由对象组合成得元组,会抛出一个TypeError...否则返回该msg提示 (18)setattr(obj,name,value) #设置对象属性的,如果存在覆盖/不存在建立该属性 (19)selattr(obj,name) #删除对象中属性...(17) split(str=””, num=string.count(str)) num=string.count(str)) 以 str 分隔符截取字符串,如果 num 有指定仅截取 num...,如果 True,保留换行符。...() 如果字符串中只包含数字字符,返回 True,否则返回 False (24)isspace() 如果字符串中只包含空白,返回 True,否则返回 False. (25)istitle() 如果字符串中所有的单词拼写首字母是否大写

89330

算法原理:大数据处理的分治思想!

如果子问题的规模仍然不够小,再划分为k个子问题,如此递归的进行下去,直到问题规模足够小,很容易求出其解为止。 将求出的小规模的问题的解合并为一个更大规模的问题的解,自底向上逐步求出原来问题的解。...这条特征涉及到分治的效率,如果各子问题是不独立的,分治要做许多不必要的工作,重复地解公共的子问题,此时虽然也可用分治,但一般用动态规划较好。 3....每次合并操作,我们都计算逆序对个数,把这些计算出来的逆序对个数求和,就是这个数组的逆序对个数了。 7. 分治实战 案例1:169.多数元素 【题目描述】 给定一个大小 n 的数组,找到其中的众数。...如果它们的众数相同,那么显然这一段区间的众数是它们相同的。...【解题思路】 确定切分的终止条件   对n不断除以2,并更新n,直到0,终止切分 准备数据,将大问题切分为小问题   对n不断除以2,更新 处理子问题得到子结果,并合并 x与自身相乘更新x 如果n%

1.7K10

Python3内置函数表.md

classinfo #判断是否是实例化对象 如果第一个参数不是对象返回False,第二个参数不是或者由对象组合成得元组,会抛出一个TypeError异常; (16)hasattr(obj,name...name,value) #设置对象属性的,如果存在覆盖/不存在建立该属性 (19)selattr(obj,name) #删除对象中属性 (20)property(fget=None,fset=None...(17) split(str=””, num=string.count(str)) num=string.count(str)) 以 str 分隔符截取字符串,如果 num 有指定仅截取 num...,如果 True,保留换行符。...() 如果字符串中只包含数字字符,返回 True,否则返回 False (24)isspace() 如果字符串中只包含空白,返回 True,否则返回 False. (25)istitle() 如果字符串中所有的单词拼写首字母是否大写

1.3K20
领券