首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python科学计算:Pandas

    比如我们想对name列的数值都进行大写转化可以用: df['name'] = df['name'].apply(str.upper) 12 df['name'] = df['name'].apply(...如何用SQL方式打开Pandas Pandas的DataFrame数据类型可以让我们像处理数据表一样进行操作,比如数据表的增删改查,都可以用Pandas工具来完成。...不过也会有很多人记不住这些Pandas的命令,相比之下还是用SQL语句更熟练,用SQL对数据表进行操作是最方便的,它的语句描述形式更接近我们的自然语言。...这样我们就可以在Python里,直接用SQL语句中对DataFrame进行操作,举个例子: import pandas as pd from pandas import DataFrame from pandasql...expression 12 lambda argument_list: expression 这里argument_list是参数列表,expression是关于参数的表达式,会根据expression表达式计算结果进行输出返回

    2K10

    用测试金字塔指导数据应用的测试

    如果我们用三层测试金字塔的测试划分来看待问题,就很难给这样的测试一个准确的定位。不过,通常我们无需考虑这样的分类,而是可以把它当做集成度低的测试,即金字塔靠底端的测试。...由于集成测试运行较慢,可以考虑: 尽量少点用例数量,将多个用例合并为一个来运行(主要是将数据可以合并成单一的一套数据来运行) 将测试分级为需要频繁运行的测试和无需频繁运行的测试,比如可将测试分级P0...比如,前面文章中的空调销售的例子,如果我们在统计销量的时候不知道存在退货或者他店调货的业务实际情况,那我们就不知道数据中还有一些字段能反映这个业务,也就不能正确的计算销量了。...由于这些代码通常对外部的依赖很少,通常只是单纯的根据输入数据计算得到输出数据,所以对这些代码建立测试是十分容易的事。事实上,我们很容易实现100%的测试覆盖率。...在组织测试时,我们可以用单元测试的方式,不依赖计算框架。

    65630

    Python科学计算之Pandas

    而Scipy(会在接下来的帖子中提及)当然是另一个主要的也十分出色的科学计算库,但是我认为前三者才是真正的Python科学计算的支柱。...所以,不需要太多精力,让我们马上开始Python科学计算系列的第三帖——Pandas。如果你还没有查看其他帖子,不要忘了去看一下哦! 导入Pandas 我们首先要导入我们的演出明星——Pandas。...这是导入Pandas的标准方式。显然,我们不希望每时每刻都在程序中写’pandas’,但是保持代码简洁、避免命名冲突还是相当重要的。因而我们折衷一下,用‘pd’代替“pandas’。...如果你仔细查看其他人使用Pandas的代码,你会发现这条导入语句。 Pandas的数据类型 Pandas基于两种数据类型:series与dataframe。...可能在你的数据集里有年份的列,或者年代的列,并且你希望可以用这些年份或年代来索引某些行。这样,我们可以设置一个(或多个)新的索引。 ? 这将会给’water_year’一个新的索引值。

    2.9K00

    【Pandas教程】像写SQL一样用Pandas~

    写在最前 Python在数据分析领域有三个必须需要熟悉的库,分别是pandas,numpy和matplotlib,如果排个优先级的话,我推荐先学pandas。...Pandas pandas支持的数据源很多,包括csv,excel,以及读取数据库,当然读取数据库的话需要配合其他库,包括oracle,mysql,vertica,presto等等都是支持的。...常见的如下: pandas.read_csv():用于读取csv文件; pandas.read_excel():用于读取Excel文件; pandas.read_json() :用于读取json文件...行列同时筛选 pandas主要有data.iloc和data.loc来支持行列筛选,虽然还有data.ix,但在目前最新的pandas已经将其弃用了。...在Pandas中我们可以使用pandas.merge()来完成连接对操作。

    2.3K30

    理解计算:从根号2到AlphaGo 第5季 导数的前世今生

    临界点除了局部极小点(local minimum)、局部极大点(local maxmum)外,还有鞍点,鞍点(saddle points)既不是最小点也不是最大点, 如下图9所示: ?...图10 存在多个局部极小点的情况[5] 然而,不幸的是,直接利用该方法计算导数去寻找函数的极值点在一些更复杂的情况下几乎没什么用处。特别是函数变量过多的话那就是噩梦。...⼭⾕中局部“形状”的⼀切,由此我们只需要计算导数就可以模拟球将怎样滚动,而不用实际的球。...因此更多的时候,这个算法并不用来直接进行计算导数,而是用来检验其他算法计算出的导数的正确性。用导数的定义来验证导数计算的准确性,应该没有比这更好方法了吧!...上表左边和之前的前向微分是一样的,右边则是逆向求导的计算过程,注意箭头表示的计算过程,也就是一开始先计算输出y对于节点v5的导数,用 ? ,这个计算结果需要保留下来,以便用于后续计算,而不必重复计算。

    1.3K10

    用 Pandas 做 ETL,不要太快

    本文对电影数据做 ETL 为例,分享一下 Pandas 的高效使用。完整的代码请在公众号「Python七号」回复「etl」获取。 1、提取数据 这里从电影数据 API 请求数据。...现在创建一个名为 tmdb.py 的文件,并导入必要的依赖: import pandas as pd import requests import config 向 API 发送单个 GET 请求的方法...url) response_list.append(r.json()) 现在我们拿到了 response_list 这样复杂冗长的 JSON 数据,这里使用 from_dict() 从记录中创建 Pandas...一种比较直观的方法是将 genres 内的分类分解为多个列,如果某个电影属于这个分类,那么就在该列赋值 1,否则就置 0,就像这样: 现在我们用 pandas 来实现这个扩展效果。...最后的话 Pandas 是处理 excel 或者数据分析的利器,ETL 必备工具,本文以电影数据为例,分享了 Pandas 的常见用法,如果有帮助的话还请点个在看给更多的朋友,再不济,点个赞也行。

    3.3K10

    用 Swifter 大幅提高 Pandas 性能

    矢量化 对于这个用例,我们将把矢量化定义为使用Numpy来表示整个数组而不是它们的元素上的计算。...1,2,3,4,5]) array_2 = np.array([6,7,8,9,10]) 你希望创建一个新的数组,这是两个数组的总和,结果如下: result = [7,9,11,13,15] 在Python中,可以用for...并行处理 几乎所有的计算机都有多个处理器。这意味着您可以很容易地通过利用它们来提高代码的速度。因为apply只是将一个函数应用到数据帧的每一行,所以并行化很简单。...来源https://github.com/jmcarpenter2/swifter Swifter的做法是 检查你的函数是否可以向量化,如果可以,就使用向量化计算。...,你就可以用一个单词来运行你的Pandas应用程序了。

    4.2K20

    用scikit-learn研究局部线性嵌入(LLE)

    在局部线性嵌入(LLE)原理总结中,我们对流形学习中的局部线性嵌入(LLE)算法做了原理总结。...由于降维时它需要考虑了样本的全局欧式距离关系,因此降维计算量很大,现在一般较少使用了。     2)等距映射ISOMAP算法:这个对应的类是Isomap。 ...由于降维时它仍然需要考虑了样本的全局测地距离关系,因此降维计算量很大。     3)局部线性嵌入LLE算法:这个对应的类是LocallyLinearEmbedding。...n_neighbors个数越大,则建立样本局部关系的时间会越大,也就意味着算法的复杂度会增加。当然n_neighbors个数越大,则降维后样本的局部关系会保持的更好。...现在我们看看还是这些k近邻数,用HLLE的效果。

    86520

    用pandas处理时间格式数据

    本文2023字,预计阅读需10分钟; 我们在处理时间相关的数据时有很多库可以用,最常用的还是内置的datetime、time这两个。...做数据分析时基本都会导入pandas库,而pandas提供了Timestamp和Timedelta两个也很强大的类,并且在其官方文档[1]上直接写着对标datetime.datetime,所以就打算深入一下...26,hour=15)等形式可以得到一个时间戳类型的对象,Timestamp的常用输入参数有: ts_input:要转为时间戳的数据,可以是字符串,整数或小数,int/float类型要和unit搭配着用;...处理时间序列相关数据的需求主要有:生成时间类型数据、时间间隔计算、时间统计、时间索引、格式化输出。...早午晚餐的小提琴图 [1] Timestamp官方文档: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.html

    4.4K32

    python科学计算之Pandas使用(三)

    前两天介绍了 最常见的Pandas数据类型Series的使用,DataFrame的使用,今天我们将是最后一次学Pandas了,这次讲的读取csv文件。...比如下面这个我命名为 marks.csv 的文件,就是用逗号(必须是半角的)作为分隔符: ? 其实,这个文件要表达的事情是(如果转化为表格形式): ?...用 Pandas 读取 如果对上面的结果都有点不满意的话,那么看看 Pandas 的效果: ? 看了这样的结果,你还不感觉惊讶吗?你还不喜欢上 Pandas 吗?这是多么精妙的显示。它是什么?...可以说,当你已经掌握了通过 dir() 和 help() 查看对象的方法和属性时,就已经掌握了 pandas 的用法,其实何止 pandas,其它对象都是如此。...我这里少了一个模块,看报错提示, 用pip 安装 openpyxl 模块:sudo pip install openpyxl。继续: ?

    1.4K10

    python科学计算之Pandas使用(二)

    阅读大概需要3分钟 作者老齐 编辑 zenRRan 链接 http://wiki.jikexueyuan.com/project/start-learning-python/311.html Pandas...昨天介绍了 最常见的Pandas数据类型Series的使用,今天讲的Pandas的另一个最常见的数据类型DataFrame的使用。...因为在定义 f3 的时候,columns 的参数中,比以往多了一项('debt'),但是这项在 data 这个字典中并没有,所以 debt 这一竖列的值都是空的,在 Pandas 中,空就用 NaN 来代表了...将 Series 对象(sdebt 变量所引用) 赋给 f3['debt']列,Pandas 的一个重要特性——自动对齐——在这里起做用了,在 Series 中,只有两个索引("a","c"),它们将和...这些操作是不是都不陌生呀,这就是 Pandas 中的两种数据对象。

    1K10
    领券