腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据科学学习手札

记录自己的数据科学学习之路

专栏作者

224

文章

323752

阅读量

87

订阅数

必知必会的8个Python列表技巧

python 数据结构

　　列表（List）是你使用Python过程中接触最为频繁的数据结构，也是功能最为强大的几种数据结构之一。Python列表非常的万能且蕴含着许多隐藏技巧，下面我们就来探索一些常用的列表技巧。

2020-06-28

1.1K0

（数据科学学习手札79）基于geopandas的空间数据分析——深入浅出分层设色

数据结构机器学习 https 网络安全编程算法

　　通过前面的文章，我们已经对geopandas中的数据结构、坐标参考系、文件IO以及基础可视化有了较为深入的学习，其中在基础可视化那篇文章中我们提到了分层设色地图，可以对与多边形关联的数值属性进行分层，并分别映射不同的填充颜色，但只是开了个头举了个简单的例子，实际数据可视化过程中的分层设色有一套策略方法。

2020-03-11

1.7K0

（数据科学学习手札74）基于geopandas的空间数据分析——数据结构篇

编程算法数据结构

geopandas是建立在GEOS、GDAL、PROJ等开源地理空间计算相关框架之上的，类似pandas语法风格的空间数据分析Python库，其目标是尽可能地简化Python中的地理空间数据处理，减少对Arcgis、PostGIS等工具的依赖，使得处理地理空间数据变得更加高效简洁，打造纯Python式的空间数据处理工作流。本系列文章就将围绕geopandas及其使用过程中涉及到的其他包进行系统性的介绍说明，每一篇将尽可能全面具体地介绍geopandas对应方面的知识，计划涵盖geopandas的数据结构、投影坐标系管理、文件IO、基础地图制作、集合操作、空间连接与聚合。　　作为基于geopandas的空间数据分析系列文章的第一篇，通过本文你将会学习到geopandas中的数据结构。 geopandas的安装和使用需要若干依赖包，如果不事先妥善安装好这些依赖包而直接使用pip install geopandas或conda install geopandas可能会引发依赖包相关错误导致安装失败，官方文档中的推荐安装方式为：

2020-02-15

2.7K0

（数据科学学习手札63）利用pandas读写HDF5文件

html5 python 数据结构

　　HDF5（Hierarchical Data Formal）是用于存储大规模数值数据的较为理想的存储格式，文件后缀名为h5，存储读取速度非常快，且可在文件内部按照明确的层次存储数据，同一个HDF5可以看做一个高度整合的文件夹，其内部可存放不同类型的数据。在Python中操纵HDF5文件的方式主要有两种，一是利用pandas中内建的一系列HDF5文件操作相关的方法来将pandas中的数据结构保存在HDF5文件中，二是利用h5py模块来完成从Python原生数据结构向HDF5格式的保存，本文就将针对pandas中读写HDF5文件的方法进行介绍。

2019-07-08

1.9K0

（数据科学学习手札63）利用pandas读写HDF5文件

html5 python 数据结构

　　HDF5（Hierarchical Data Formal）是用于存储大规模数值数据的较为理想的存储格式，文件后缀名为h5，存储读取速度非常快，且可在文件内部按照明确的层次存储数据，同一个HDF5可以看做一个高度整合的文件夹，其内部可存放不同类型的数据。在Python中操纵HDF5文件的方式主要有两种，一是利用pandas中内建的一系列HDF5文件操作相关的方法来将pandas中的数据结构保存在HDF5文件中，二是利用h5py模块来完成从Python原生数据结构向HDF5格式的保存，本文就将针对pandas中读写HDF5文件的方法进行介绍。

2019-07-06

1.2K0

（数据科学学习手札14）Mean-Shift聚类法简单介绍及Python实现

编程算法 python 数据结构

不管之前介绍的K-means还是K-medoids聚类，都得事先确定聚类簇的个数，而且肘部法则也并不是万能的，总会遇到难以抉择的情况，而本篇将要介绍的Mean-Shift聚类法就可以自动确定k的个数，下面简要介绍一下其算法流程：　　1.随机确定样本空间内一个半径确定的高维球及其球心；　　2.求该高维球内质心，并将高维球的球心移动至该质心处；　　3.重复2，直到高维球内的密度随着继续的球心滑动变化低于设定的阈值，算法结束具体的原理可以参考下面的地址，笔者读完觉得说的比较明了易懂： http://blo

2018-04-17

1.5K0

（数据科学学习手札12）K-means聚类实战（基于R）

数据结构 python

上一篇我们详细介绍了普通的K-means聚类法在Python和R中各自的实现方法，本篇便以实际工作中遇到的数据集为例进行实战说明。数据说明：本次实战样本数据集来自浪潮集团提供的美团的商家信息，因涉及知识产权问题恕难以提供数据地址；我选择的三个维度的数值型数据分别为“商家评分”，“商家评论数”，“本月销售额”，因为数值极差较大，故对原数据先进行去缺省值-标准化处理，再转为矩阵形式输入K-means算法之中，经Rtsne对原数据进行降维后具体代码和可视化聚类效果如下： rm(list=ls()) libr

2018-04-17

6030

（数据科学学习手札07）R在数据框操作上方法的总结（初级篇）

python 数据结构

上篇我们了解了Python中pandas内封装的关于数据框的常用操作方法，而作为专为数据科学而生的一门语言，R在数据框的操作上则更为丰富精彩，本篇就R处理数据框的常用方法进行总结： 1.数据框的生成利用data.frame()函数来创建数据框，其常用参数如下： ...：数据框的构成向量的变量名，顺序即为生成的数据框列的顺序 row.names：对每一行命名的向量 stringAsFactors：是否将数据框中字符型数据类型转换为因子型，默认为FALSE > a <- 1:10 > b <- 10:1 >

2018-04-17

1.4K0

（数据科学学习手札06）Python在数据框操作上的总结（初级篇）

python 数据结构

数据框（Dataframe）作为一种十分标准的数据结构，是数据分析中最常用的数据结构，在Python和R中各有对数据框的不同定义和操作。 Python 本文涉及Python数据框，为了更好的视觉效果，使用jupyter notebook作为演示的编辑器;Python中的数据框相关功能集成在数据分析相关包pandas中，下面对一些常用的关于数据框的知识进行说明： 1.数据框的创建 import pandas as pd from numpy import random a = [i for i in rang

2018-04-17

14.2K0

（数据科学学习手札02）Python与R在循环语句与条件语句上的异同

python 数据结构

循环是任何一种编程语言的基本设置，是进行批量操作的基础，而条件语句是进行分支运算的基础，Python与R有着各自不同的循环语句与条件语句语法，也存在着一些相同的地方。 Python 1.for循环 '''通过for循环对列表进行遍历''' list1 = [i for i in range(10)] for i in range(10): print(list1[i]) 0 1 2 3 4 5 6 7 8 9 '''通过for循环对集合进行遍历''' set1 = set([i for i in

2018-04-17

2K0

（数据科学学习手札01）Python与R基本数据结构之异同

python 数据结构

Python 1.列表（list） list1 = [i for i in range(10)] list1 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 特点：可遍历，可索引，可切片列表的遍历：方式1： for i in range(len(list1)): print(list1[i]) 方式2： list1 = [i+1 for i in range(10)] for i,j in enumerate(list1): print(i,j) 0 1 1 2 2 3

2018-04-17

7610

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态