前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2020年入门数据分析选择Python还是SQL?七个常用操作对比!

2020年入门数据分析选择Python还是SQL?七个常用操作对比!

作者头像
刘早起
发布2020-10-26 10:52:32
3.6K0
发布2020-10-26 10:52:32
举报
文章被收录于专栏:早起Python

SQL和Python几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?本文将分别用MySQLpandas来展示七个在数据分析中常用的操作,希望可以帮助掌握其中一种语言的读者快速了解另一种方法

在阅读本文前,你可以访问下方网站下载本文使用的示例数据,并导入MySQL与pandas中,一边敲代码一边阅读!

代码语言:javascript
复制
https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv

一、选择

在SQL中,我们可以使用SELECT语句从表选择数据,结果被存储在一个结果表中,语法如下:

代码语言:javascript
复制
SELECT column_name,column_name
FROM table_name;

如果不想显示全部的记录,可以使用TOPLIMIT来限制行数。因此选择tips表中的部分列可以使用下面的语句

代码语言:javascript
复制
SELECT total_bill, tip, smoker, time
FROM tips
LIMIT 5;

而在pandas中,我们可以通过将列名列表传递给DataFrame来完成列选择

在SQL中,进行选择的同时还可以进行计算,比如添加一列

代码语言:javascript
复制
SELECT *, tip/total_bill as tip_rate
FROM tips
LIMIT 5;

在pandas中使用DataFrame.assign()同样可以完成这个操作

二、查找

单条件查找

在SQL中,WHERE子句用于提取那些满足指定条件的记录,语法如下

代码语言:javascript
复制
SELECT column_name,column_name
FROM table_name
WHERE column_name operator value;

比如查找示例数据中time = dinner的记录

代码语言:javascript
复制
SELECT *
FROM tips
WHERE time = 'Dinner'
LIMIT 5;

而在pandas中,按照条件进行查找则可以有多种形式,比如可以将含有True/False的Series对象传递给DataFrame,并返回所有带有True的行

多条件查找

在SQL中,进行多条件查找可以使用AND/OR来完成

代码语言:javascript
复制
SELECT *
FROM tips
WHERE time = 'Dinner' AND tip > 5.00;

在pandas中也有类似的操作

查找空值

在pandas检查空值是使用notna()isna()方法完成的。

代码语言:javascript
复制
frame[frame['col1'].notna()]

在SQL中可以使用IS NULLIS NOT NULL完成

代码语言:javascript
复制
SELECT *
FROM frame
WHERE col2 IS NULL;

SELECT *
FROM frame
WHERE col1 IS NOT NULL;

三、更新

在SQL中使用UPDATE

代码语言:javascript
复制
UPDATE tips
SET tip = tip*2
WHERE tip < 2;

而在pandas中则有多种方法,比如使用loc函数

代码语言:javascript
复制
tips.loc[tips['tip'] < 2, 'tip'] *= 2

四、删除

在SQL中使用DELETE

代码语言:javascript
复制
DELETE FROM tips
WHERE tip > 9;

在pandas中,我们选择应保留的行,而不是删除它们

代码语言:javascript
复制
tips = tips.loc[tips['tip'] <= 9]

五、分组

在pandas中,使用groupby()方法实现分组。groupby()通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。

常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过对性别进行分组查询

代码语言:javascript
复制
SELECT sex, count(*)
FROM tips
GROUP BY sex;

在pandas中的等价操作为

注意,在上面代码中,我们使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录的数量!

六、连接

在pandas可以使用join()merge()进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。

现在让我们重新创建两组示例数据,分别用代码来演示不同的连接

代码语言:javascript
复制
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
   ....:                     'value': np.random.randn(4)})
   ....: 

df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
   ....:                     'value': np.random.randn(4)})

内连接

内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在SQL中实现内连接使用INNER JOIN

代码语言:javascript
复制
SELECT *
FROM df1
INNER JOIN df2
  ON df1.key = df2.key;

在pandas中可以使用merge()

merge()提供了一些参数,可以将一个DataFrame的列与另一个DataFrame的索引连接在一起?

左/右外联接

在SQL中实现左/右外连接可以使用LEFT OUTER JOINRIGHT OUTER JOIN

代码语言:javascript
复制
SELECT *
FROM df1
LEFT OUTER JOIN df2
  ON df1.key = df2.key;
  
SELECT *
FROM df1
RIGHT OUTER JOIN df2
  ON df1.key = df2.key;

在pandas中实现同样可以使用merge()并指定how关键字为left或者right即可

全连接

全连接返回左表和右表中的所有行,无论是否匹配,但并不是所有的数据库都支持,比如mysql就不支持,在SQL中实现全连接可以使用FULL OUTER JOIN

代码语言:javascript
复制
SELECT *
FROM df1
FULL OUTER JOIN df2
  ON df1.key = df2.key;

在pandas中实现同样可以使用merge()并指定how关键字为outer

七、合并

SQL中UNION操作用于合并两个或多个SELECT语句的结果集,UNIONUNION ALL类似,但是UNION将删除重复的行。示例代码如下

代码语言:javascript
复制
SELECT city, rank
FROM df1
UNION ALL
SELECT city, rank
FROM df2;
/*
         city  rank
      Chicago     1
San Francisco     2
New York City     3
      Chicago     1
       Boston     4
  Los Angeles     5
*/

在pandas中可以使用concat()实现UNION ALL

上面是UNION ALL保留重复值,如果希望删除可以使用 drop_duplicates()

以上就是本文的全部内容,可以看到在不同的场景下不同的语言有着不同的特性,如果你想深入学习了解可以进一步查阅官方文档并多加练习!

-END-

来源:pandas官方文档 h‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ttps://pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html 编译:刘早起(有删改)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 早起Python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 单条件查找
  • 多条件查找
  • 查找空值
  • 内连接
  • 左/右外联接
    • 全连接
    相关产品与服务
    数据库
    云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档