首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    干货:手把手教你用Python读写CSV、JSON、Excel及解析HTML

    这样在后面的代码中,使用DataFrame或read_csv(...)方法时,我们就不用写出包的全名了。...可以使用下面的代码从JSON文件中读取数据(read_json_alternative.py文件): # 读取数据 with open('../.....存储数据到Excel文件中也很简单。仅需调用.to_excel(...)方法,第一个参数传你要保存数据的文件名,第二个参数传工作表的名字。...本技法会介绍如何从网页获取数据。 1. 准备 要实践这个技巧,你要先装好pandas和re模块。re是Python的正则表达式模块,我们用它来清理列名。...fix_string_spaces (columnsToFix): ''' 将列名中的空白字符换成下划线 ''' tempColumnNames = [] # 保存处理后的列名 # 循环处理所有列 for

    8.4K20

    利用query()与eval()优化pandas代码

    「网飞」获取百度网盘地址。...,其中对字段名的命名规范有一定要求:当字段名符合Python中对变量命名规范的要求时,即变量名完全由「字母」、「数字」、「下划线」构成且不以「数字」开头,这样的字段是可以直接写入query()表达式的。...而pandas中的eval()有两种,一种是top-level级别的eval()函数,而另一种是针对数据框的DataFrame.eval(),我们接下来要介绍的是后者,其与query()有很多相同之处,...API了,但面对eval(),还是逊色不少 DataFrame.eval()通过传入多行表达式,每行作为独立的赋值语句,其中对应前面数据框中数据字段可以像query()一样直接书写字段名,亦可像query...()的地方在于配合他,我可以在很多数据分析场景中实现0中间变量,一直链式下去,延续上面的例子,当我们新增了这两列数据之后,接下来我们按顺序进行按月统计影片数量、字段重命名、新增当月数量在全部记录排名字段

    1.5K30

    Pandas 25 式

    把 continent 列改为 category 数据类型后,DataFrame 对内存的占用进一步缩减到 2.4 KB。...下面是三天的股票数据: ? 把每个 CSV 文件读取成 DataFrame,合并后,再删除导入的原始 DataFrame,但这种方式占用内存太多,而且要写很多代码。...从剪贴板创建 DataFrame 想快速把 Excel 或别的表格软件里存储的数据读取为 DataFrame,用 read_clipboard()函数。 ?...这里包含了两列,第二列包含的是 Python 整数列表。 要把第二列转为 DataFrame,在第二列上使用 apply() 方法,并把结果传递给 Series 构建器。 ?...第一个参数是要设置的选项名称,第二个参数是 Python 的字符串格式。 ? 现在年龄与票价列为 2 位小数了。 注意:这种操作不改变底层数据,只改变数据的显示形式。

    8.4K00

    数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

    用这种方式转换第三列会出错,因为这列里包含一个代表 0 的下划线,pandas 无法自动判断这个下划线。...把 continent 列改为 category 数据类型后,DataFrame 对内存的占用进一步缩减到 2.4 KB。...下面是三天的股票数据: ? 把每个 CSV 文件读取成 DataFrame,合并后,再删除导入的原始 DataFrame,但这种方式占用内存太多,而且要写很多代码。...这里包含了两列,第二列包含的是 Python 整数列表。 要把第二列转为 DataFrame,在第二列上使用 apply() 方法,并把结果传递给 Series 构建器。 ?...第一个参数是要设置的选项名称,第二个参数是 Python 的字符串格式。 ? 现在年龄与票价列为 2 位小数了。 注意:这种操作不改变底层数据,只改变数据的显示形式。

    7.2K20

    Pandas知识点-合并操作merge

    merge()方法自动将所有列同时作为连接列,合并时取并集,所有的连接列在结果中都返回了,得到的效果就与按行合并一样。(理解how参数和on参数后就会明白,下文马上介绍)。 二连接方式 ---- ?...默认为None,merge()方法自动识别两个DataFrame中名字相同的列,作为连接的列,如本文前面的例子中没有指定on参数,也自动识别了相同的列作为连接列。...合并时,先找到两个DataFrame中的连接列key,然后将第一个DataFrame中key列的每个值依次与第二个DataFrame中的key列进行匹配,匹配到一次结果中就会有一行数据。...上面的例子中,用于连接的列是key1,key2,k0,k0在两个DataFrame中都有,匹配到一次,k1,k1匹配到两次,k2,k2和k2,k3等都没有匹配成功,所以结果为三行(默认合并方式为inner...如果需要本文代码,可以点击关注公众号“Python碎片”,然后在后台回复“pandas13”关键字获取完整代码。

    4.3K30

    (数据科学学习手札92)利用query()与eval()优化pandas代码

    ,其中对字段名的命名规范有一定要求:当字段名符合Python中对变量命名规范的要求时,即变量名完全由字母、数字、下划线构成且不以数字开头,这样的字段是可以直接写入query()表达式的。   ...图4   因此可以记住只要在Python里作为变量名不报错,就可以直接填入字段名,否则需要在字段名两边加上`,譬如下面的例子: ?...而pandas中的eval()有两种,一种是top-level级别的eval()函数,而另一种是针对数据框的DataFrame.eval(),我们接下来要介绍的是后者,其与query()有很多相同之处,...图13   虽然assign()已经算是pandas中简化代码的很好用的API了,但面对eval(),还是逊色不少 DataFrame.eval()通过传入多行表达式,每行作为独立的赋值语句,其中对应前面数据框中数据字段可以像...()的地方在于配合他,我可以在很多数据分析场景中实现0中间变量,一直链式下去,延续上面的例子,当我们新增了这两列数据之后,接下来我们按顺序进行按月统计影片数量、字段重命名、新增当月数量在全部记录排名字段

    1.7K20

    Python数据分析 | Pandas数据分组与操作

    .png] 转换成列表的形式后,可以看到,列表由三个元组组成,每个元组中: 第一个元素是组别(这里是按照company进行分组,所以最后分为了A,B,C) 第二个元素的是对应组别下的DataFrame...2.2 agg 聚合操作 聚合统计操作是groupby后最常见的操作,类比于SQL中我们会对数据按照group做聚合,pandas中通过agg来完成。...对于groupby后的apply,实际上是以分组后的子DataFrame作为参数传入指定函数的,基本操作单位是DataFrame,而之前介绍的apply的基本操作单位是Series。...本系列教程涉及的速查表可以在以下地址下载获取 Pandas速查表 NumPy速查表 Matplotlib速查表 Seaborn速查表 拓展参考资料 Pandas官方教程 Pandas中文教程 ShowMeAI...系列教程推荐 图解Python编程:从入门到精通系列教程 图解数据分析:从入门到精通系列教程 图解AI数学基础:从入门到精通系列教程 图解大数据技术:从入门到精通系列教程

    2.9K41

    整理了 25 个 Pandas 实用技巧,拿走不谢!

    按行从多个文件中构建DataFrame 假设你的数据集分化为多个文件,但是你需要将这些数据集读到一个DataFrame中。 举例来说,我有一些关于股票的小数聚集,每个数据集为单天的CSV文件。...按列从多个文件中构建DataFrame 上一个技巧对于数据集中每个文件包含行记录很有用。但是如果数据集中的每个文件包含的列信息呢?...现在我们的DataFrame已经有六列了。 11. 从剪贴板中创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet中,你又想要尽快地将他们读取至DataFrame中。...这种方法能够起作用是因为在Python中,波浪号表示“not”操作。 14....set_option()函数中第一个参数为选项的名称,第二个参数为Python格式化字符。可以看到,Age列和Fare列现在已经保留小数点后两位。

    3.2K10

    Python读书笔记23(浅谈为什么要用类)

    如果只是想学Python的数据分析,爬虫,不想了解复杂编程,可以略过剩下三篇的文章,本周只分享类的用法!前方高能!一个字“不好理解!”...上帝说完后,创造了类! 一、历史长河太长,我们从整型说起! ? 如果知道某个个体的分数的时候,我们一个变量即可;当我们想获取某个集体的分数的时候,就延伸到了列表,或者元组。...很多时候做数据分析用列表即可,当然后期数据处理其实用的更多的是和list很像的Series,和Excel很像的DataFrame(不知道是什么没关系,证明还有很多新东西可以学习) 学到列表基本上已经满足了我们的需求...每个类初始化的时候和函数一样要定义一个名称,函数中可以设置传入的实参个数,类也是同理,不过类中是在def _init_中设置实参个数的。...我们定义一个类后,可以将类初始化后赋值给一个变量,然后使用变量.属性就可以获取对应的返回值! 我们接下来可以给这个类赋值为更多的属性,比如我们给这个类定义睡觉、吃饭等方法!

    2.8K70

    独家 | PySpark和SparkSQL基础:如何利用Python编程执行Spark(附代码)

    作者:Pinar Ersoy 翻译:孙韬淳 校对:陈振东 本文约2500字,建议阅读10分钟 本文通过介绍Apache Spark在Python中的应用来讲解如何利用PySpark包执行常用函数来进行数据处理工作...第一步:从你的电脑打开“Anaconda Prompt”终端。 第二步:在Anaconda Prompt终端中输入“conda install pyspark”并回车来安装PySpark包。...= 'ODD HOURS', 1).otherwise(0)).show(10) 展示特定条件下的10行数据 在第二个例子中,应用“isin”操作而不是“when”,它也可用于定义一些针对行的条件。...指定从括号中特定的单词/内容的位置开始扫描。...在接下来的例子中,文本从索引号(1,3),(3,6)和(1,6)间被提取出来。

    13.7K21

    盘一盘 Python 系列 4 - Pandas (上)

    1 数据表的创建 数据表有三大类型 Series: 一维数据,类似于 python 中的基本数据的 list 或 NumPy 中的 1D array。...因此在创建 Series 时,如果不显性设定 index,那么 Python 给定一个默认从 0 到 N-1 的值,其中 N 是 x 的长度。...上节都是手敲一些数据来创建「多维数据表」的,现实中做量化分析时,数据量都会很大,一般都是从量化平台中或者下载好的 csv 中直接读取。本节介绍如何从量化平台「万矿」中读取数据来创建「多维数据表」的。...元组第二个元素为获取的数据 DataFrame,其中 index 列为时间,columns 为参数 Fields 各指标 上面结果 errorcode = 0,要获取 DataFrame 只需访问...里面的冒号 : 代表所有的 columns (和 numpy 数组里的冒号意思相同)。 情况 3 用中括号 [] 加「位置」,位置 i:i+1 有前闭后开的性质。

    6.3K52

    pandas处理字符串方法汇总

    Pandas中字符串处理 字符串是一种常见的数据类型,我们遇到的文本、json数据等都是属于字符串的范畴。Python内置了很多处理字符串的方法,这些方法为我们处理和清洗数据提供了很大的便利。...import pandas as pd Pandas改变Object数据类型 Object类型是我们在pandas中常用的字符串类型。...s1.dtype string[python] 在创建Series的时候可以直接指定数据类型: s2 = pd.Series(['a','b','c',None], dtype='string') s2...3 Mckinney Name: Language, dtype: object 通过get方法来获取分割后的数据:索引从0开始 # 使用字符串的get方法 df["Language"].str.split...str.get(1) 0 Gudio 1 Gosling 2 None 3 Mckinney Name: Language, dtype: object 将分割后的数据进行展开

    46120

    Python数据分析(一): ipython 技巧!

    1.安装python安装包之后,应该就有ipython了。 2.安装anaconda,这个做机器学习或数据分析要是需要的,这个装完之后,也会有ipython。...自动完成 Tab Tab键在ipython中输入时可提供自动完成或浏览功能。 有时候优点像python内置的dir()函数,但强大得多。 ? 这是L.后边点击Tab的效果。...下划线和前一个输出 使用一个下划线 _ 来获取前一个输出结果,它是个变量,实时更新的。 ? 使用两个下划线 __ 可以获取倒数第二个输出,使用三个下划线 ___ 获取倒数第三个输出。...Exception显示的详细程度 如果解释器击中异常的时候,可以在traceback中查看异常信息。...在发生异常后,输入%xdebug,会进入debug模式ipdb。在这里输入变量可以查看变量的值,也可以执行python命令! ?

    1.2K60

    【重磅来袭】在Power BI 中使用Python(4)——PQ数据导出&写回SQL

    《在Power BI 中使用Python》系列的前三篇文章我们分别讲解了: 如何在Power BI中使用Python来获取数据: 【强强联合】在Power BI 中使用Python(1) 如何在Power...我们在第二讲中说过: Python的处理结果以Dataframe形式输出,M将Dataframe自动转换为Table格式。...M将其Table类型的数据传递给Python,Python会自动将Table转换为Dataframe。那么Python中Dataframe如何输出呢?...看到了吗,mysql数据库中本来是一张空表,我们在powerquery中运行了一段Python代码后,表中有了数据。 ?...获取完整源代码,请关注本公众号【学谦数据运营】,回复关键字“powerbi-python-mysql” 代码没什么难度,用的是Python的一个常用库:pymysql,将dataset中的数据按行导入

    4.3K41

    如何理解软件测试学习中的正则表达式?

    简单的例子     了解了什么是正则表达式后,在由几个例子去进一步理解。...我再来列举一个日常工作中的案例,将理论应用到实践。正则表达式在日常使用中一定是基于某一种编程语言的,后面的案例编程语言选择python(因为我目前只会这个)。     ...设想这么一个场景,在测试过程中需要获取某个时间段内某个程序的运行情况,从而分析出该程序的稳定性或使用频率等指标,该程序的日志记录完备,日志格式固定且已知。...这时候最佳的办法就是从该程序日志中进行相关信息的获取。...\w+ 状态码:\d+ 客户端获取到的数据大小:\d+KB     上述中某几个正则其实并不严谨,比如IP对应的正则还可以匹配出999.999.999.999。

    67720

    python数据分析——数据的选择和运算

    在数据分析的领域中,Python以其灵活易用的特性和丰富的库资源,成为了众多数据科学家的首选工具。在Python的数据分析流程中,数据的选择和运算是两个至关重要的步骤。...综上所述,Python在数据分析中的数据选择和运算方面展现出了强大的能力。通过合理的数据选择和恰当的运算处理,我们可以从数据中获取到宝贵的信息和洞见,为决策提供有力的支持。...正整数用于从数组的开头开始索引元素(索引从0开始),而负整数用于从数组的结尾开始索引元素,其中最后一个元素的索引是-1,第二个到最后一个元素的索引是-2,以此类推。...数据获取 ①列索引取值 使用单个值或序列,可以从DataFrame中索引出一个或多个列。...[ ]里面的使用方法同.loc[ ]方法。 【例】采用上面例题的dataFrame,用iloc()函数结合lambda函数获取行数据。

    19310

    30 分钟轻松搞定正则表达式基础

    正则表达式在文本处理中相当重要,各大编程语言中均有支持(跟 Linux 三剑客结合更是神兵利器)。...有些元字符专门用来指代字符串中的元素类型,常用的如下: 通过上述表格中的数据可以发现,\w,\d,\s都有一个与之相反的元字符(将对应字母大写后就是了)。...设想这么一个场景,在测试过程中需要获取某个时间段内某个程序的运行情况,从而分析出该程序的稳定性或使用频率等指标,该程序的日志记录完备,日志格式固定且已知。...这时候最佳的办法就是从该程序日志中进行相关信息的获取。...\w+ 状态码:\d+ 客户端获取到的数据大小:\d+KB 上述中某几个正则其实并不严谨,比如IP对应的正则还可以匹配出999.999.999.999。

    43520
    领券