首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

python数据分析——数据的选择和运算

它们能够帮助我们海量的数据中提取出有价值的信息,并通过适当的运算处理,得出有指导意义的结论。 数据的选择,是指在原始数据集中筛选出符合特定条件的数据子集。这通常涉及到对数据的筛选、排序和分组等操作。...例如,使用.loc和.iloc可以根据行标签和行号来选取数据,而.query方法则允许我们根据条件表达式来筛选数据。 在数据选择的基础上,数据运算则是进一步挖掘数据内在规律的重要手段。...数据获取 ①索引取值 使用单个值或序列,可以DataFrame中索引出一个或多个。...【例】创建两个不同的数据帧,并使用merge()对其执行合并操作。 关键技术:merge()函数 首先创建两个DataFrame对象。...sort_values()方法可以根据指定行/进行排序。

11910

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

在 Pandas 中,您使用特殊方法/向 Excel 文件读取和写入。 让我们首先基于上面示例中的数据框,创建一个的 Excel 文件。 tips.to_excel("....pandas 通过在 DataFrame 中指定单个系列来提供矢量化操作。可以以相同的方式分配DataFrame.drop() 方法 DataFrame 中删除一。...If/then逻辑 假设我们想要根据 total_bill 是小于还是大于 10 美元,来创建一个具有低值和高值的。 在Excel电子表格中,可以使用条件公式进行逻辑比较。...按位置提取子串 电子表格有一个 MID 公式,用于给定位置提取子字符串。获取第一个字符: =MID(A2,1,1) 使用 Pandas,您可以使用 [] 表示法按位置位置字符串中提取子字符串。...在 Pandas 中,这个操作一般是通过条件表达式一次对整个DataFrame 完成。

19.5K20

30 个小例子帮你快速掌握Pandas

让我们将csv文件读取到pandas DataFrame开始。...这些方法根据索引或标签选择行和。 loc:带标签选择 iloc:用索引选择 先创建20个随机indices。...18.插入 我们可以向DataFrame添加,如下所示: group = np.random.randint(10, size=6) df_new['Group'] = group df_new...符合指定条件的值将保持不变,而其他值将替换为指定值。 20.排名函数 它为这些值分配一个等级。让我们创建一个根据客户余额对客户进行排名的。...method参数指定如何处理具有相同值的行。first表示根据它们在数组(即)中的顺序对其进行排名。 21.中唯一值的数量 使用分类变量时,它很方便。我们可能需要检查唯一类别的数量。

10.6K10

如何把时间序列问题转化为监督学习问题?通俗易懂的 Python 教程

仅仅是一个序列,变成成对的输入、输出序列。 这篇教程里,你将学到如何把单变量、多变量时间序列问题转为机器学习算法能解决的监督学习问题。...时间序列是一组按照时间指数排序的数字序列,可被看成是一有序的值。比如: 监督学习问题由输入(X)和输出(y)速成,其算法能学习如何根据输入模式预测输出模式。...给定一个 DataFrame, shift() 函数可被用来创建数据的副本,然后 push forward (NaN 值组成的行添加到前面)或者 pull back(NaN 值组成的行添加到末尾)。...对于一个监督学习问题,在一个有输入、输出模式的时间序列里,我们可以看到如何用正负 shift 来生成DataFrame 。...函数返回一个单个的值: return: 序列的 Pandas DataFrame 转为监督学习。 数据集创建为一个 DataFrame,每一通过变量字数和时间步命名。

2.4K70

开发 | 如何把时间序列问题转化为监督学习问题?通俗易懂的 Python 教程

仅仅是一个序列,变成成对的输入、输出序列。 这篇教程里,你将学到如何把单变量、多变量时间序列问题转为机器学习算法能解决的监督学习问题。...时间序列是一组按照时间指数排序的数字序列,可被看成是一有序的值。比如: 监督学习问题由输入(X)和输出(y)速成,其算法能学习如何根据输入模式预测输出模式。...给定一个 DataFrame, shift() 函数可被用来创建数据的副本,然后 push forward (NaN 值组成的行添加到前面)或者 pull back(NaN 值组成的行添加到末尾)。...对于一个监督学习问题,在一个有输入、输出模式的时间序列里,我们可以看到如何用正负 shift 来生成DataFrame 。...函数返回一个单个的值: return: 序列的 Pandas DataFrame 转为监督学习。 数据集创建为一个 DataFrame,每一通过变量字数和时间步命名。

1.5K50

8个Python高效数据分析的技巧

回想一下Pandas中的shape 1df.shape 2(# of Rows, # of Columns) Pandas DataFrame中调用shape属性返回一个元组,第一个值代表行数,第二个值代表列数...如果你想在Python中对其进行索引,则行数下标为0,数下标为1,这很像我们如何声明轴值。...无论如何,这些函数本质上就是以特定方式组合DataFrame的方式。 在哪个时间跟踪哪一个最适合使用可能很困难,所以让我们回顾一下。...Concat允许用户在表格下面或旁边追加一个或多个DataFrame(取决于您如何定义轴)。 ? Merge将多个DataFrame合并指定主键(Key)相同的行。 ?...Join,和Merge一样,合并了两个DataFrame。 但它不按某个指定的主键合并,而是根据相同的列名或行名合并。 ?

2.1K20

8 个 Python 高效数据分析的技巧

回想一下Pandas中的shape df.shape (# of Rows, # of Columns) Pandas DataFrame中调用shape属性返回一个元组,第一个值代表行数,第二个值代表列数...如果你想在Python中对其进行索引,则行数下标为0,数下标为1,这很像我们如何声明轴值。 Concat,Merge和Join 如果您熟悉SQL,那么这些概念对您来说可能会更容易。...无论如何,这些函数本质上就是以特定方式组合DataFrame的方式。在哪个时间跟踪哪一个最适合使用可能很困难,所以让我们回顾一下。...Concat允许用户在表格下面或旁边追加一个或多个DataFrame(取决于您如何定义轴)。 ? Merge将多个DataFrame合并指定主键(Key)相同的行。 ?...Join,和Merge一样,合并了两个DataFrame。但它不按某个指定的主键合并,而是根据相同的列名或行名合并。 ? Pandas Apply pply是为Pandas Series而设计的。

2.7K20

基于Spark的机器学习实践 (八) - 分类算法

通过对训练数据的单次传递,它计算给定每个标签的每个特征的条件概率分布。 对于预测,它应用贝叶斯定理来计算给定观察的每个标签的条件概率分布。 MLlib支持多项式朴素贝叶斯和伯努利朴素贝叶斯。...给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将的实例分配给两个类别之一的模型,使其成为非概率[二元][线性分类器]。...可以常规RDD隐式或显式创建DataFrame 6.1.1.2 Transformer Transformer是一种可以将一个DataFrame转换为另一个DataFrame的算法....Tokenizer.transform()方法将原始文本文档拆分为单词,向DataFrame添加一个带有单词的。...HashingTF.transform()方法将单词转换为要素向量,将包含这些向量的添加到DataFrame

1.1K20

基于Spark的机器学习实践 (八) - 分类算法

通过对训练数据的单次传递,它计算给定每个标签的每个特征的条件概率分布。 对于预测,它应用贝叶斯定理来计算给定观察的每个标签的条件概率分布。 MLlib支持多项式朴素贝叶斯和伯努利朴素贝叶斯。...给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将的实例分配给两个类别之一的模型,使其成为非概率二元。...可以常规RDD隐式或显式创建DataFrame 6.1.1.2 Transformer Transformer是一种可以将一个DataFrame转换为另一个DataFrame的算法....Tokenizer.transform()方法将原始文本文档拆分为单词,向DataFrame添加一个带有单词的。...HashingTF.transform()方法将单词转换为要素向量,将包含这些向量的添加到DataFrame

1.7K31

如何用 Python 执行常见的 Excel 和 SQL 任务

通过这个简单的 Python 赋值给变量 gdp,我们现在有了一个 dataframe,可以在我们编写 gdp 的时候打开和浏览。我们可以为该词添加 Python 方法,以创建其中的数据的策略视图。...在中转换数据类型 有时,给定的数据类型很难使用。这个方便的教程将分解 Python 中不同数据类型之间的差异,以便你需要复习。...我们为一个dataframe 分配一个布尔索引的过滤器,这个方法基本上就是说「创建一个人均 GDP 超过 50000 的 dataframe」。现在我们可以显示gdp50000。 ?...现在可以显示一个 dataframe,其中只包含以 s 开头的国家。使用 len 方法快速检查(一个用于计算 dataframe 中的行数的救星!)表示我们有 25 个国家符合。 ? ?...你会看到我们收集了一些不需要的。幸运的是,使用 Pandas 中的 drop 方法,你可以轻松地删除几列。 ? ? 现在我们可以看到,人均 GDP 根据世界不同地区而不同。

10.7K60

业界 | 用Python做数据科学时容易忘记的八个要点!

Lambda函数用于在Python中创建小型的,一次性的和匿名的函数对象。基本上,它们可以让你“在不创建函数的情况下”创建一个函数。...Arange在给定的范围内返回间隔均匀的值。除了起始值和终止值,你还可以根据需要定义步长或数据类型。请注意,终止值是一个“截止”值,因此它不会被包含在数组输出中。...所以给定一个起始值和终止值,并指定返回值的个数,linspace将根据你指定的个数在NumPy数组中划好等分。这对于数据可视化和在定义图表坐标轴时特别有用。...我记得我最喜欢的解释是这个: df.shape (# of Rows, # of Columns) Pandas的dataframe调用shape属性时会返回一个元组,其中第一个值表示行数,第二个值表示数...Apply会根据你指定的内容向或行中的每个元素发送一个函数。你可以想象这是多么有用,特别是在对整个DataFrame处理格式或运算数值的时候,可以省去循环。 ? 透视表 最后要说到的是透视表。

1.4K00
领券