首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

12种用于Python数据分析的Pandas技巧

Boolean Indexing 在表格中,如果你想根据另一列的条件筛选当前列的值,你会怎么做?举个例子,假设我们想要一份所有未毕业但已经办理了贷款的女性清单,具体的操作是什么?...从结果上看,缺失值的确被补上了,但这只是最原始的形式,在现实工作中,我们还要掌握更复杂的方法,如分组使用平均值/众数/中位数、对缺失值进行建模等。 4....注: 多索引需要元组来定义loc语句中的索引组。这是一个在函数中要用到的元组。 values [0]的后缀是必需的,因为默认情况下返回的值与DataFrame的值不匹配。...我希望这能直观地解释为什么在Kaggle这样的比赛中,0.05%的准确率提升能带来500名以上的排名提升。 7....这两幅图表明收入在贷款过程中所占的比重并没有我们想象中那么高,无论是被拒的还是收到贷款的,他们的收入没有非常明显的区别。 10.

89820

比特币像个醉汉,S2F模型是它回家的路!

S2F和市值之间的关系是偶然产生的,这种可能性几乎为零。当然,其他因素也会影响价格,例如监管、黑客攻击等,这就是为什么R2并不总是100%的原因,并非所有点都落在直的黑线上。...如果你不使用对数刻度,你不会看到;尺度方差和自相似性与分形相关。实际上,上面的幂律函数中的参数3.3是“分形维数”。...虽然它在形式上可能不是静止的,但它确实在接近平稳状态。 具有K个内生变量和r个协整方程的VECM伴随矩阵具有Kr单位特征值。如果过程是稳定的,则剩余r特征值的系数严格小于1。...由于特征值的系数没有总分布,因此很难确定系数与另一个系数是否接近。 伴随矩阵的根 特征值图显示,剩余特征值都不接近单位圆。稳定性检查并不能说明我们的模型是存在指定错误的。...脉冲响应函数 上图表明,Stock-to-Flow价值的正交冲击,对比特币的价值具有永久性影响。 这就是我们的底线。Stock-to-Flow不是一个随机变量,它是一个随时间变化的已知值的函数。

1.1K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【Kaggle入门级竞赛top5%排名经验分享】— 建模篇

    Kaggle数据挖掘竞赛入门级项目 "泰坦尼克号生还者预测" 作者:xiaoyu 阅读全文需要15分钟 1 前情回顾 上一篇是数据挖掘的前戏,主要目的是认识数据特征、判断特征重要性、观察数据异常,掌握数据间联系...这时我们可以使用相似特征替换方法来填补缺失值,下面来找一下与缺失值具有相似特征的其它样本数据: df.loc[(df['Pclass']==3)&(df['Age']>60)&(df['Sex']=='...df['Embarked'] = df['Embarked'].fillna('C') Cabin特征缺失值 Cain特征有70%的缺失值,较为严重,如果进行大量的填补会引入更多噪声。...Age缺失值处理 前面说了将采用拟合的方法来填补Age缺失值,那为什么一定要在后面处理呢?...观察:通过拟合得到的Age缺失值的可视化展示,总体上看效果还可以,具体需要进一步排查。 3.

    57020

    使用TensorFlow Probability实现最大似然估计

    极大似然估计 最大似然估计是深度学习模型中常用的训练过程。目标是在给定一些数据的情况下,估计概率分布的参数。简单来说,我们想要最大化我们在某个假设的统计模型下观察到的数据的概率,即概率分布。...它们本质上是在计算类似的东西,但角度相反。 从概率密度函数开始,我们知道它们是样本1,…,的函数。参数被认为是固定的。因此当参数已知时,我们使用概率密度函数,找出相同样本1,…,的概率。...这意味着我们的自变量现在是,因为我们不知道是哪个分布产生了我们观察到的这个过程。所以当我们知道某个过程的样本时,使用这个函数,即我们收集了数据,但我们不知道最初是什么分布生成了该过程。...为了克服这个问题,可以使用同一函数的对数变换。自然对数是一个单调递增的函数,这意味着如果x轴上的值增加,y轴上的值也会增加。这很重要,因为它确保概率对数的最大值出现在与原始概率函数相同的点。...Loc: 0.855 我们通过最大化在第一时间生成的抽样数据的概率,计算了参数的最大似然估计。

    74320

    红队利用之利用PyautoGUI实现自动对某数字,某绒和某管家的退出

    起因: 4月份的某一天,在玩内网渗透的时候,发现一些比较好的免杀工具的确能让木马对杀毒软件实现绕过,这种免杀工具的连接端大部分是MSF的,在MSF里面进行后渗透操作的时候,MSF会再向目标计算机发送可执行文件...,这时可执行文件就不再免杀了,加入对方电脑上安装了杀毒软件的话,基本GG了,因为MSF原生的payload已经被各大杀软爆菊了,所以才萌生了自动关闭杀毒软件的想法!...识别杀软 为了实现自动识别杀毒软件的功能,首先要知道系统运行了哪些杀毒软件,CMD命令tasklist可以列出系统正在运行的进程,将其与已知的杀毒软件进行进行匹配即可,如果进程中有与av_process...坐标获取 知道目标主机运行的程序后就需要准备关闭它了,这时候使用opencv的图像识别技术,找到目标(杀毒软件)logo在屏幕的位置,以坐标形式进行返回,用于对鼠标的定位。...在当前目录下由于图片中有类似‘退出’、‘确认’字样,会被opencv识别,导致定位不准,所以必须保存在其他目录下 c) 关于打开右下角隐藏起的图标 Win+B,再按一下空格键或者回车键 d) 关于图片保存

    1.2K10

    一个数据库性能规模化的传说

    在强烈渴望解开谜团和健康的愤怒的驱使下,Joan 花了几个小时使用 Wireshark 检查网络通信,她推测错误一定在哈希键实现中(确实如此)。...在公司的数据库中,键被哈希化以随后将请求路由到相应的节点。如果哈希值计算错误,请求可能会被转发到错误的节点,该节点可能会拒绝请求并返回错误。...当Joan 观察 Grafana 仪表板中显示的指标清楚地表明该应用程序生成的请求速率在异常发生时开始飙升时,她想知道这个工作负载怎么会这样。...导致发现根本原因的观察相当简单:请求实际上并没有返回超时错误,因为数据库服务器从未发送回这样的响应。请求只是被驱动程序判定为超时,然后被丢弃。...第二个问题(并发量暂时翻倍)是由另一个错误配置引起的:过于积极的推测性重试策略。在等待预配置的时间段后没有从数据库收到确认,驱动程序会推测性地重新发送请求以最大限度地提高其成功的机会。

    3600

    Go语言中常见100问题-#60 Misunderstanding Go contexts

    根据官方文档的定义,Context会携带一个截止日期,一个取消信号和跨越API边界的值。现在让我们深入研究这个定义并理解与上下文(Context)所有的相关概念。...因为在有些情况下,可能会导致碰撞冲突。实际中,来自不同包的两个函数可以使用相同的字符串值作为key,会导致后者覆盖前者的值。因此,处理上下文键的最佳实践是创建一个未导出的自定义类型。...因此,使用相同上下文的另一个包不会覆盖已设置的值。...这个示例展示了如何在具体的Go应用程序中使用带值的上下文。 通过前面的介绍,我们已知道如何创建一个上下文来携带截止日期,取消信号以及键值信息。我们可以将这个上下文传递给其他带有context参数的库。...当不确定要使用哪个上下文时,我们应该使用context.TODO()而不是使用context.Background传递一个空的上下文,实际上,context.TODO()也返回一个空的上下文,但是在语义上

    78740

    V神详述:如何实现99%的容错共识

    如果一个验证器i收到一些消息v: i[1]:…: i[k], 其中 i[1]:…:i[k]是已经按顺序对消息进行了签名的索引列表(只是v本身会算作k = 0,而v:i则为k = 1),那么验证程序检查(...如果问题要求选择一个值,则可以使用一些“选择”函数从他们看到的值中选择一个值(例如采用哈希值最低的值)。然后节点可以就该值达成共识。 现在,让我们来探究一下为什么这种方式有效。...改进其它共识算法 理论上讲,上述算法可以作为独立的共识算法使用,甚至可以用于运行权益证明的区块链。...我们可以在这种结构上改进依赖于延迟的算法,让总是在线的观察者能够访问检查点上的一种“有可能结果”,容错性约为95%(也可以通过添加更多的验证器和要求使用花费更长时间的过程来将容错性推进至100%)。...如果一个节点在时间T + k∙D (D = 8秒)之前看到有k个签名的某个最终值,则接受该链进入它的已知链集中,并添加自己的签名进行重新广播它;观察者像以前一样使用T + (k - 0.5)∙D的阈值。

    33840

    【Linux】信号概念与信号产生

    异常 (1)观察现象 异常在我们的程序中也很常见,我们常见的异常有除0错误和越界访问,接下来我们模拟一下这两种场景,分析一下这两种场景。...所以进程一旦出异常了,不一定会退出,但是一旦异常退出了,一定是执行了信号所对应的异常处理方法。 (2)理解本质 下面我们进一步理解为什么除0错误和野指针会让进程崩溃。...本质上是出现异常后,给对应的进程发信号了,而进程收到信号默认的处理动作就是终止自己,这就是进程崩溃的原因。那么为什么除0错误和野指针会给进程发信号呢?...,当该进程被切换时,其它进程的上下文会放上CPU上正常运行!...其中返回值我们要理解一下,当我们设定好闹钟,我们可能会提前醒来,那么进程也是一样,当进程被提前发送了14号信号,就相当于提前醒来,那么返回值就是上一次设定闹钟的剩余时间。

    19810

    进程

    孤儿进程被1号init进程领养,此时就会观察到该进程的父进程就是1号进程。 为什么要被领养? 未来子进程退出的时候,父进程早已不在,需要领养进程来进行回收 进程的优先级 为什么要有优先级?...进程独立性 通过页表的映射机制,实现了进程之间的独立 空间利用 对于申请的空间,如果没有使用,在物理内存上其实是没有开辟的,这就保证了空间利用的高效。...id和pid相等的子进程 stat_loc:若子进程正常退出,则为真,值为0。...若为真,用WEXITSTATUS(stat_loc)提出退出码。非真,可以下面的方法提出子进程接收到的信号。 options:当它为0的时候,阻塞等待子进程结束。...当execl发生错误的时候会返回1。正常就没有返回值——因为替换成功,原进程就没有了,返回值没有意义,只有失败的时候,返回值才有意义。 详细说一下进程是怎么替换的。

    84230

    geohash之2d 地理空间索引

    有关查询存储在地理空间索引中的数据的信息,请参阅使用2d索引查询地空间。 存储位置数据 要使用2d地理空间索引,您必须在预定的二维坐标系(例如经度和纬度)上对位置数据建模。...在创建索引时,MongoDB会将位置数据转换为二进制 geohash值,并使用位置数据和索引的位置范围计算这些值,如 位置范围中所述。...距离计算 在执行2d 地理空间查询之前,MongoDB会执行距离计算。默认情况下,MongoDB使用平面几何来计算点之间的距离。...0.01853688938212826, "maxDistance" : 0.01853714811400047 }, "ok" : 1 } 警告 围绕极点或从-180到180经度的过渡的球形查询会产生错误...地理空间索引和分片 你不能使用地理空间索引作为片键分片集合时。但是,您可以在分片集合上创建和维护地理空间索引,并使用不同的字段作为分片键。

    2.3K40

    浅尝辄止MongoDB:基础

    键是一个标签,大致相当于RDBMS中的列名,可以使用键引用文档中的数据。 在关系数据库中,必须能够通过某种方式唯一定位一条指定的记录,否则将无法引用特定的行。...现在人们更愿意使用MongoDB创建的默认ID值,如果不确定键的唯一性或者不希望担心这件事情,那么最好还是使用MongoDB提供的默认键。...(4)键/值 文档由键和值组成,键和值总是成对出现。与RDBMS不同,RDBMS中的所有字段必须有值,即使值是NULL,而MongoDB不要求文档必须含有特定的值。...因为MongoDB查询将在文档中寻找特定的键和值,该信息可以轻松扩展到所有的可用服务器上。每台服务器都将检查该查询,并返回结果。这样,可扩展性与性能的提升几乎是线性的。 二、安装 1....(2)文档 文档由键值对组成,键的类型为字符串,但可以使用许多不同类型的数据作为值。下面是所有可以添加到文档中的数据类型: String:字符串类型,常用于存储文本值,区分大小写。

    1.7K10

    竞赛专题 | 数据预处理-如何处理数据中的坑?

    ,我们发现有的人的身高是10米,那这种很明显就是错误的数据;还有天池之前的医疗比赛,有些血压数据明显是仪器错误等造成的,而针对这些错误的数据,我们就需要对其进行清洗,删除或者将其当缺失值等; 第二种对数据预处理往往是模型的原因...同样如果已知缺失值和某些特征存在很强的关联,也可以做关联填充,例如,体重缺失的时候,使用身高^2 * 系数。的方法填充。...缺失值 在我们经常填充缺失值的时候,我们会在使用Pandas会经常使用到fillna函数: 填充固定值: data.fillna(0, inplace=True) # 填充 0 填充均值: data.fillna...,在交通标志的比赛中并未使用。...王博 ID:000wangbo 简介:西安电子科技大学研究生,一个不断在CV道路上探索的小白。 在比赛中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。

    2.2K50

    概率密度估计介绍

    在接下来的小节中,我们将依次仔细介绍这些步骤。 为了简单起见,我们将重点介绍单变量数据,例如一个随机变量。虽然这些步骤适用于多元数据,但随着变量数量的增加,它们会变得更具挑战性。...密度直方图 直方图是这样一种图,它首先将观察结果分组到各个箱子(bin)中,然后计算每个箱子中的事件数量。每个箱子里的计数或观察频率然后用条形图表示,箱子在x轴上,频率在y轴上。...比如我们需要先对数据做归一化 又或者我们需要先去除一些异常点,因为这些点的存在可能会严重影响后面的密度估计 当我们的数据明显左偏(或者右偏)的时候,我们可以对数据取对数或平方根,或者更一般地,使用power...而非参数密度估计其实是使用所有样本来进行密度估计,换句话说每个样本的观测值都被视为参数。...核密度函数的原理比较简单,在我们知道某一事物的概率分布的情况下,如果某一个数在观察中出现了,我们可以认为这个数的概率密度很大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小

    1.2K20

    数据分析实战—北京二手房房价分析

    = 3: raise Exception('请使用Python 3 来完成此项目') 然后导入数据,并进行初步的观察,这些观察包括了解数据特征的缺失值,异常值,以及大概的描述性统计。...这些统计结果简单直接,对于初始了解一个特征好坏非常有用,比如我们观察到 Size 特征 的最大值为1019平米,最小值为2平米,那么我们就要思考这个在实际中是不是存在的,如果不存在没有意义,那么这个数据就是一个异常值...,会严重影响模型的性能。...# 由于存在个别类型错误,如简装和精装,特征值错位,故需要移除 df['Elevator'] = df.loc[(df['Elevator'] == '有电梯')|(df['Elevator'] ==...在Renovation和Elevator的分类条件下,使用 FaceGrid 分析 Year 特征,观察结果如下: 整个二手房房价趋势是随着时间增长而增长的; 2000年以后建造的二手房房价相较于2000

    1.9K30

    超过响应缓冲区限制

    当您使用 Response.BinaryWrite 方法,在 IIS 6 中和 IIS 7 中时出现错误消息:”HTTP 500″或”超过响应缓冲区限制” http://support.microsoft.com.../kb/944886/zh-cn 当您将文件发送到client计算机从安装了 Web server上哪些 Internet Information Services (IIS) 7 或 IIS 6,您可能会收到类似于下面内容的一种在...出现此问题的解决办法是当 ASP 响应缓冲被禁用时,IIS 会强制默认活动server页面 (ASP) 响应缓冲区值为 4 MB。...在大多数的方案 4 MB 缓冲区限制足以为 ASP 响应发送到 Web client的。没有足够此限制时使用下列方法之中的一个。...假设不事先知道最大响应大小,您能够将缓冲区限制添加到一个较大的值在測试过程中。在完毕測试后,出现的最大值在 sc 字节 中使用字段中 IIS 日志文件为页生成的响应。

    1.1K30

    VS实用调试技巧

    4.1 环境准备 首先是环境的准备,需要⼀个支持调试的开发环境,我们上课使用VS,应该把VS上设置为Debug,如图: 4.2 调试快捷键 调试最常使用的几个快捷键: F9:创建断点和取消断点 断点的作用是可以在程序的任意位置设置断点...,打上断点就可以使得程序执行到想要的位置暂停执 行,接下来我们就可以使用F10,F11这些快捷键,观察代码的执行细节。...F11:逐语句,就是每次都执行一条语句,但是这个快捷键可以使我们的执行逻辑进入函数内部。在函数调用的地方,想进入函数观察细节,必须使用F11,如果使用F10,直接完成函数调用。  ...监视和内存观察 在调试的过程中我们,如果要观察代码执行过程中,上下文环境中的变量的值,有哪些方法呢?...编译错误,随着语言的熟练掌握,会越来越少,也容易解 决。 9.2 链接型错误 看错误提示信息,主要在代码中找到错误信息中的标识符,然后定位问题所在。

    9210

    Redis Cluster 原理分析

    4)客户端和集群节点之间通信和通常一样,通过文本协议进行 5)集群节点不会代理查询 6)数据按照Slot存储分布在多个Redis实例上 7)集群节点挂掉会自动故障转移 8)可以相对平滑扩/缩容节点 2...当接收者收到消息时,接收者会访问消息正文中的两个结构,并根据自己是否认识clusterMsgDataGossip结构中记录的被选中节点进行操作: 1.如果被选中节点不存在于接收者的已知节点列表,那么说明接收者是第一次接触到被选中节点...3.2数据分片 在Redis Cluster中,拥有16384个slot,这个数是固定的,存储在Redis Cluster中的所有的键都会被映射到这些slot中。...数据库中的每个键都属于这16384个哈希槽的其中一个,集群使用公式CRC16(key) % 16384来计算键key属于哪个槽,其中CRC16(key)语句用于计算键key的CRC16校验和。...有两种不同的重定向场景: a)MOVED错误 1.请求的key对应的槽不在该节点上,节点将查看自身内部所保存的哈希槽到节点ID的映射记录, 节点回复一个MOVED错误。

    1.1K40

    Python 动态加载模块以及多进程问题

    在 Python 中,动态加载模块通常是通过使用 importlib 库实现的,而处理多进程问题,则可利用 multiprocessing 模块。下面我将详细介绍这两部分的内容和如何使用它们。...目前,我在主脚本的开头导入了所有已知模块的列表——我觉得这是一个讨厌的 hack,而且不灵活,而且维护起来也很痛苦。以下是生成进程的函数。我希望在遇到模块时修改它以动态加载该模块。...# 由于线程将持有资源 #t.daemon = True #t.start()问题 1当我按照上面写的方式在脚本中调用该函数时,会收到以下错误:AttributeError: 'str' object...当我添加以下语句时:import worker在生成线程之前,会收到以下错误:ImportError: No module named worker这一点很奇怪,因为使用的是变量名而不是它所保存的值——...解决方案答案 1:使用 import().答案 2:为什么不在 do_work() 函数的末尾进行清理呢?答案 3:据我所知,守护线程只意味着程序不会自动等待该线程结束。

    9410
    领券