首页
学习
活动
专区
工具
TVP
发布

数说戏聊

专栏作者
30
文章
43428
阅读量
13
订阅数
Python3分析Excel数据
使用xlrd和xlwt扩展包,确定工作簿中工作表的数量、名称和每个工作表中行列的数量。 1excel_introspect_workbook.py
用户1250179
2018-08-02
3.3K0
Python3分析CSV数据
with语句在语句结束时自动关闭文件对象。 使用csv模块reader函数创建文件读取对象filereader,读取输入文件中的行。 使用csv模块的writer函数创建文件写入对象filewriter,将数据写入输出文件。 函数的第二个参数(delimiter=',')是默认分隔符,如果输入和输出文件都用逗号分隔,就不需要此参数。 使用filewriter对象的writerow函数来将每行中的列表值写入输出文件。
用户1250179
2018-08-02
6.6K0
03章 开始采集
wikiSpider是新项目的名称,在当前目录中会新建一个名称也是wikiSpider 的项目文件夹。 为了创建爬虫,要在wikiSpider/wikiSpider/spiders/ 文件夹里增加一个 articleSpider.py文件。另外,在items.py文件中,要定义一个Article 类。
用户1250179
2018-08-02
1610
05存储数据
Python3中,urllib.request.urlretrieve根据文件的URL下载文件。
用户1250179
2018-08-02
1.8K0
04-06章 过滤数据第4章 过滤数据第5章 高级数据过滤第6章 用通配符进行过滤
分析 这条语句从 products 表中检索两个列,但不返回所有行,只返回 prod_price 值为 3.49 的行,输出:
用户1250179
2018-08-02
1.5K0
macOS常用命令与重装常用命令重装macOS
1.在 Finder 标题栏显示完整路径 defaults write com.apple.finder _FXShowPosixPathInTitle -bool YES
用户1250179
2018-08-02
9040
01-03章 检索排序数据第1章 了解SQL第2章 检索数据第3章
数据库(database) 数据库软件称为数据库管理系统(DBMS),数据库是通过 DBMS 创建和操纵的容器。
用户1250179
2018-08-02
2.6K0
北美肉用公牛指数解读
预期后代差异(Expected Progeny Differences),简称EPDs,是预测每一头公牛后代的表现与数据库中其他公牛后代相比 存在的差异。
用户1250179
2018-08-02
9020
02.数据导入&清理1.导入csv文件2.导入文本文件3.导入EXCEL文件:4.解决中文路径异常问题5.导出csv文件6.重复值处理7.缺失值处理8.空格值处理
用pandas读取Excel文件时, 如提示:ModuleNotFoundError: No module named 'xlrd', 因为Excel需要单独安装xlrd模块进行支持。
用户1250179
2018-08-02
1.2K0
01.loc & iloc & ix 区别使用标签选取数据
当用行号索引的时候, 尽量用 iloc 来进行索引; 而用标签索引的时候用 loc , ix 尽量别用。
用户1250179
2018-08-02
8160
03.向量化计算1.生成等差数组2.四则计算与函数计算3.比较运算4.矩阵运算5.数据框运算
定义:是一种特殊的并行计算的方式,可以同一时间执行多次操作,通常是对不同的数据执行同一个或同一批指令。主要用于pandas的Series系列和DataFrame数据框。
用户1250179
2018-08-02
5370
00.数据结构关于浮点数运算的越界问题1.数据结构2.Pandas的两种常用数据结构3.Series系列4.DataFrame数据框
类似一维数组(ndarray)的对象,由一组数据(各种NumPy数据类型)以及与之相关的数据标签(索引)组成,用于存储一行或一列数据。
用户1250179
2018-08-02
1.1K0
10.RFM分析&矩阵分析1.RFM分析2.矩阵分析
1.最近有过交易行为的客户,再次发生交易的可能性要高于最近没有交易行为的客户。 2.交易频率较高的客户比交易频率较低的客户,更有可能再次发生交易行为。 3.过去所有交易总金额较多的客户,比交易总金额较少的客户,更有消费积极性。
用户1250179
2018-08-02
8810
06.简单计算&数据标准化&数据分组1.简单计算2.数据标准化3.数据分组
通常在综合评价分析、聚类分析、因子分析、主成分分析等分析开展之前,消除各个变量由于量纲不同、自身变异或者数值相差较大所引起的误差。
用户1250179
2018-08-02
3280
05.记录合并&字段合并&字段匹配1.记录合并2.字段合并3.字段匹配3.1 默认只保留连接上的部分3.2 使用左连接3.3 使用右连接3.4 保留左右表所有数据行
将两个结构相同的数据框合并成一个数据框。 函数concat([dataFrame1, dataFrame2, ...])
用户1250179
2018-08-02
3.4K0
07.时间处理&抽取1.时间处理1.1 字符型转时间型2.时间抽取
1.时间处理 1.1 字符型转时间型 datetime = pandas.to_datetime(dateString, format) #dateString:字符型时间列 #format:时间格式(如下表) 属性 注释 %Y 年 %m 月 %d 日 %H 时 %M 分 %S 秒 1.2 时间格式化 将时间型数据,按照指定格式,转为字符型数据。 dateTimeFormat = datetime.dt.strftime(format) 1.3 时间属性抽取 指从日期格式里面,抽取出部分属性。 datet
用户1250179
2018-08-02
5780
08.基本统计&分组&分布分析1.基本统计分析2.分组分析3.分布分析
描述性统计分析,用来概括事物整体状况以及事物间联系,即事物的基本特征,以发现内在规律的统计分析方法。
用户1250179
2018-08-02
4780
12.柱形图&直方图1.柱形图2.直方图
以长方形的单位长度,根据数据大小绘制的统计图,用来比较两个或以上的数据(时间或类别)。
用户1250179
2018-08-02
7640
09.交叉&结构&相关分析1.交叉分析2.结构分析3.相关分析
用于分析两个或两个以上,分组变量之间的联系,以交叉表形式进行变量间关系的对比分析。
用户1250179
2018-08-02
2.1K0
04.字段抽取/拆分&记录抽取1.字段抽取2.字段拆分3.记录抽取
1.字段抽取 根据已知列的开始与结束位置,抽取出新的列 字段截取函数slice(start, stop) slice()函数只能处理字符型数据 start从0开始,取值范围前闭后开。 from pandas import read_csv df = read_csv( '/users/bakufu/desktop/4.6/data.csv' ) Out[65]: tel 0 18922254812 1 13522255003 2 134222599
用户1250179
2018-08-02
1.4K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档