首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    首次公开,用了三年的 pandas 速查表!

    导读:Pandas 是一个强大的分析结构化数据的工具集,它的使用基础是 Numpy(提供高性能的矩阵运算),用于数据挖掘和数据分析,同时也提供数据清洗功能。...本文收集了 Python 数据分析库 Pandas 及相关工具的日常使用方法,备查,持续更新中。...作者:李庆辉 来源:大数据DT(ID:hzdashuju) 缩写说明: df:任意的 Pandas DataFrame 对象 s:任意的 Pandas Series 对象 注:有些属性方法 df 和...s 都可以使用 推荐资源: pandas 在线教程 https://www.gairuo.com/p/pandas-tutorial 书籍 《深入浅出Pandas:利用Python进行数据处理与分析》...matplotlib # 国外网络慢,可指定国内源快速下载安装 pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple Conda

    8.5K10

    Pandas用了这么久,有觉得哪里不好的地方吗?

    导读 作为一名数据分析师,自己对Pandas有过系统的学习和应用实践,对其大部分功能甚至骚操作也称得上有所研究,前期也写过太多的Pandas应用技巧相关的文章。...今天本文就来吐槽3个自己觉得Pandas设计有欠妥当的地方,纯为个人见解! ?...当然了,Spark里的DataFrame没Pandas的复杂是客观事实,Pandas里丰富的API也确实有其独特用武之地,所以也不能完全算是槽点。 ?...如果说Pandas的API足够丰富是其一大优势,但在有些情况下又不尽然。...当然,最后个人还是要声明立场,我一直都是一个Pandas爱好者,也一直享受着Pandas对数据处理带来的便利,所以这些吐槽可能还是出于希望其更好迭代改进的期盼吧! ?

    95230

    Pandas用了一年,这3个函数是我最的最爱……

    导读 作为一名数据分析师,也是Pandas重度依赖者,虽然其提供了大量便利的接口,但其中的这3个却使用频率更高!...本文主要介绍pandas.DataFrame的三个接口,即assign、eval、query,分别用于赋值、查询和执行计算。 注:本文短平快,5分钟可完成阅读了解3个高效的接口。 ?...那么,eval作为pandas.dataframe数据结构的一个接口,执行功能应该也与执行计算有关。...另一方面,pandas中实际上是内置了大量的SQL类语法(包括下面要介绍的query也是),而eval的功能正是执行类似SQL语法中的计算,对已知列执行一定的计算时可用eval完成。...例如,下述例子中C C列中有个空格,直接用于字符串表达式会存在报错,此时可使用反引号加以修饰,同时查询条件中应用了@修饰符引用外部变量。当然,与eval中类似,这里当然也可以用f字符串修饰引用。

    2.2K30

    这个烂大街的用户消费分析案例,我用了点不一样的pandas技巧

    因此,这次我会分享一些你可能极少看到的一种 pandas 的代码组织方式,我相信你会有所收获。...比如,统计顾客人数的时候,我们用了两种不同的写法: 其次,客单价的计算表达也很奇怪: 金额除以 user_id !..."每月的销售额": "每月消费人数": "每月客单价": 行3:多个度量,只需要分别传入即可 "每月平均订单单价": 本次涉及的并非一些 pandas 的方法,而是使用 pandas 的一种模式...这才是 pandas 的价值所在,否则我们直接使用其他的 BI 软件就可以了。...更多更详细的 pandas 高级应用,请关注我的 pandas 专栏,里面会有这些技巧的所有详细讲解和案例 ---- 最后 你会发现我源码中定义了其他的度量值,这会在后续更复杂的分析时用到,下次就会讲到

    1.9K50

    图再炫酷,不解决问题也白搭:数据可视化的那些“真香”实践

    比如下面这个例子:import pandas as pdimport matplotlib.pyplot as plt# 模拟销售数据data = { "月份": ["1月", "2月", "3月...三、交互性是加分项,但不是必需品现在很多BI工具(像Tableau、PowerBI、阿里QuickBI)都有强大的交互功能——筛选、下钻、联动……炫是很炫,但我问你:这些功能业务真的用了吗?...来看一个例子:import seaborn as sns# 模拟一个类热力图的业务预警图import numpy as npimport pandas as pdimport matplotlib.pyplot...True, cmap="YlOrRd", linewidths=.5)plt.title("项目每周任务完成率(热力图)")plt.show()用热力图清晰表达完成率水平,颜色从黄到红,用户一眼就知道哪些项目

    19600

    从零到一:一个Java全栈开发者的实战面试记录

    ### 第二轮:项目经验 **面试官**:你在上一家公司参与过哪些项目?能简单介绍一下吗? **张明**:我参与了一个电商系统的重构项目,主要是将单体应用拆分成多个微服务。...**张明**:我们采用了Redis缓存热点数据,并结合RabbitMQ进行异步消息处理。此外,还使用了Hystrix做熔断降级,确保系统在高负载下依然稳定。...### 第三轮:技术深度 **面试官**:你提到使用了Redis,那么你能说说Redis的持久化机制吗? **张明**:Redis支持两种持久化方式:RDB和AOF。...**张明**:Composition API是Vue3引入的新特性,允许开发者通过函数式的方式组织代码。相比Options API,它更灵活,也更适合大型项目。

    10410

    Python:使用爬虫获取世界大学学术排名存储到 Excel 并作可视化输出

    demo03.py @time: 2020/5/10 0010 """ import requests as rq from bs4 import BeautifulSoup as Bs import pandas...# 自己写表头,因为网站上爬太复杂了 thf = ['世界排名', '学校', '国家', '在该国家的排名', '总分', '校友获奖', '教师获奖', '高被引学者...: data.to_excel('university.xlsx', index=False) # 数据可视化 def can_view(universityList): # 将 pandas...da1) .add_yaxis('校友获奖', da2) .add_yaxis('教师获奖', da3) .add_yaxis('高被引学者...鉴于该写法可读性较低,所以这里稍微解释一下: 这里使用了两个列表推导式; 里面的小列表的任务时通过 XPath 获取数据之后对于每一个数字要转化为数字类型; 外面的大列表负责控制小列表的个数,同时保存到

    1.7K30

    Excel表格中某一列的多行数据都出现数字+中文的数据,但我只要数字怎么处理?

    一、前言 前几天在Python白银交流群【kaggle】问了一个Pandas处理字符串的问题,提问截图如下: 二、实现过程 这里【甯同学】给了一个思路,使用正则表达式进行实现,确实是个可行的方法,并且给出代码如下所示...关于regex的解析,【论草莓如何成为冻干莓】补充道pandas把是否使用正则变成了参数,如果regex参数为True,就用正则匹配字符串。...【瑜亮老师】后面也补充了一些关于正则表达式的知识,如下图所示: 这个问题其实方法还是很多的,这里只是抛砖引玉了一番。...这篇文章主要盘点了一个Pandas处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

    2.3K20

    从Java全栈到前端框架:一场真实面试中的技术深度探索

    你之前做过哪些项目?能简单讲一下吗? 应聘者:我之前在一家电商公司担任Java全栈工程师,负责过订单系统、用户管理模块以及前端页面的重构。...应聘者:嗯……首先,我们使用了Spring Boot来搭建后端服务,结合MyBatis进行数据库操作。前端部分用的是Vue3和Element Plus,整个项目采用了前后端分离的架构。...应聘者:是的,我们在一个内容社区项目中使用了Vue3和Element Plus,主要是为了提升页面的响应速度和用户体验。 面试官:那你能说说Vue3相比Vue2有哪些改进吗?...应聘者:Vue3引入了Composition API,让代码更灵活,也更容易复用。还有更好的TypeScript支持,以及更快的渲染速度。 面试官:没错,这些都是Vue3的重要特性。...应聘者:有,我们在部署项目时使用了Docker容器化,然后通过Kubernetes进行集群管理。 面试官:那你能说说Docker的基本概念吗?

    15510

    基于 Python 的知网文献批量采集与可视化分析

    核心技术栈说明本次实现基于 Python 3.8 + 版本,核心依赖库包括:Selenium:模拟浏览器操作,解决知网动态加载和反爬机制问题BeautifulSoup4:解析 HTML 页面,提取文献核心信息Pandas...本文采用 Selenium 模拟真人浏览行为,通过以下步骤实现批量采集:模拟登录知网(可选,部分文献需登录后查看)构造搜索请求,定位文献列表页面解析页面提取文献元数据(标题、作者、发表时间、关键词、摘要、被引量等...)分页遍历,批量存储数据数据清洗,去除重复和无效记录2.2 完整采集代码实现python运行import timeimport pandas as pdfrom selenium import webdriverfrom...3.1 可视化分析代码实现python运行import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom wordcloud...总结基于 Python 的 Selenium+BeautifulSoup 组合可有效解决知网文献批量采集问题,通过模拟浏览器操作规避反爬机制;Pandas+Matplotlib/WordCloud 可实现文献数据的多维度可视化分析

    46110

    从Java全栈到Vue3实战:一次真实面试的深度解析

    Boot + Vue3的电商系统,提升用户访问速度30% - 实现了基于Spring Cloud的微服务架构,支持高并发访问 ## 面试过程 ### 第一轮:基础知识回顾 **面试官**:你之前做过哪些项目...电商平台是基于Spring Boot和Vue3构建的,我们用了MyBatis做ORM,Redis做缓存,Kafka处理异步消息。...**应聘者**:有,我们在电商平台中使用了Spring Cloud Netflix Eureka作为服务注册中心,OpenFeign来做服务调用,Hystrix做熔断。...**应聘者**:Vue3引入了Composition API,让逻辑复用更加方便。还有响应式系统基于Proxy,比Vue2的Object.defineProperty更强大。...**应聘者**:我们采用了模块化的结构,每个页面对应一个组件,使用Vue Router进行导航,同时结合Vuex管理状态。

    29420

    Python数据分析之pandas基本数据结构

    Python数据分析之numpy数组全解析 Python数据分析之Pandas读写外部数据文件 目录 1引言 2 Series数组 2.1 Series数组构成 2.2 创建Series数组 2.3...Series数组常用属性 3 DataFrame数组 3.1 DataFrame数组构成 3.2 创建DataFrame数组 3.3 DataFrame数组的常用属性 4 总结 1引言 本文总结Pandas...>>> import pandas as pd >>> a =pd.Series([102, 212, 332, 434]) >>> a 0 102 1 212 2 332 3 434 dtype: int64...3 DataFrame数组 3.1 DataFrame数组构成 DataFrame数组是Pandas中另一种数据结构,其数据的呈现方式类似于Excel这种二维表结构。...4 总结 本文大致介绍了Pandas中的两种重要数据结构Series数组对象和DataFrame数组对象的特点、主要创建方法、属性。

    1.7K10
    领券