Python Pandas中类别变量的描述性统计_自动统计python pandas中类别变量的每一列有多少类别_python pandas groupby关于类别变量 - 腾讯云开发者社区

sql、pandas、snowflake-cloud-data-platform

我正在寻找一种方法来可视化雪花中的表的统计数据。漫长的一步是使用python提取一个有意义的数据样本并应用Pandas，但是从雪花中提取数据是低效和不安全的。 Snowflake的新界面以图形方式显示这些统计数据，我想知道是否有一种方法可以通过查询或查询元数据来获得这些数据。 ? 我需要像Pandas这样的东西-分析，但没有外部服务器。也许雪花存储的元数据/关于其列的统计数据。数字，类别https://github.com/pandas-profiling/pandas-profiling 谢谢你的建议。

浏览 22提问于2020-11-06得票数 0

1回答

复制主要由pandas.DataFrame组成的复合对象时出错

python、pandas、composition

我尝试以以下方式使用组合和pandas.DataFrame，但是当我试图复制对象时，它会给我带来错误。 import numpy as np import pandas as pd import copy class Foo(object): """ Foo is composed mostly of a pd.DataFrame, and behaves like it too. """ def __init__(self, df, attr_custom): self._ = df

浏览 1提问于2015-04-10得票数 1

4回答

Pyspark:有没有等同于pandas info()的方法？

python、pandas、apache-spark、pyspark

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

1回答

使用python的统计工作室

python、statistics

我想用python做一个统计工作室，但我的数据帧是字符串，全部是数据。我不知道如何继续，我做了一个基本的工作室计数区别于行名...但是我想做一个统计工作室或者更有趣的工作室。你能给我一些建议吗？非常感谢!

浏览 2提问于2019-08-27得票数 0

1回答

无需使用pandas/numpy等库即可计算每个流派的平均值

python、python-3.x、pandas、average、data-analysis

我是一个学习数据分析和学习Python的学生。我必须在数据库上使用纯python编写一些代码来获取摘要统计信息。然后，我必须使用numpy或pandas获取汇总统计信息。然后比较使用纯python和使用库的过程。我已经用纯python完成了必须的统计，并在numpy中完全完成了-因为库让它变得容易得多。但是，我坚持使用纯python的一个统计数据。特别是我如何获得每种类型的平均销售额。附加的数据库图片，以进一步解释我的查询。任何信息都将不胜感激。谢谢 ? 这就是我使用pandas所做的事情，我想在python中实现这一点，而不使用任何库。 ?

浏览 28提问于2021-11-12得票数 0

1回答

巨蟒熊猫。Describe()按日期

python、pandas、numpy

我想绘制一段时间内面板数据的汇总统计数据。X轴是时间，Y轴是感兴趣的变量，带有平均值、最小/最大值、P25、P50、P75等的线条。这基本上是循环和计算所有单个观察值的每个日期的统计数据，然后绘制它们。我正在尝试做的类似于下面，但y轴将是日期而不是1-10。 import numpy as np import pandas as pd # Create random data rd = pd.DataFrame(np.random.randn(100, 10)) rd.describe().T.drop('count', axis=1).plot() 在我的数据集中，每个

浏览 20提问于2020-11-06得票数 2

4回答

如何处理熊猫DataFrame中的缺失值？

python、python-3.x、pandas、dataframe、missing-data

我有一个Pandas Dataframe，它有一些缺失值。我想用一些不会影响统计数据的东西来填充缺失的值，这是我将对数据执行的操作。举个例子，如果在Excel中，你尝试对一个包含5个单元格和一个空单元格的单元格求平均值，那么平均值将是5。我希望在Python中也是如此。我尝试用NaN填充，但是如果我对某一列求和，例如，结果是NaN。我也尝试用None填充，但得到了一个错误，因为我对不同的数据类型求和。有人能帮忙吗？提前谢谢你。

浏览 25提问于2019-02-11得票数 0

回答已采纳

3回答

一列中的多个分类变量&前置

python、r、excel、pandas、statistics

我有一个调查数据，包含文本答案、分类变量和数字。在pandas中转换为数据帧，但问题是多项选择栏，有时有超过1个分类变量，因为调查被设计为“选择所有应用”。例如： ID Category Num1 Num2 Num3 1 A, B, C 1 1 1 2 B, C, D 1 0 1 3 A, C 1 1 1 4 A 0 1 1 5 A, C, D 0 1 1 我正在尝试将这些类别与数值变量相关联。让我们假设A的存在等于Num1的值。但是，当我使

浏览 5提问于2020-02-16得票数 2

1回答

安装在永IDE后的熊猫导入错误

python、pandas、importerror、python-import

我在进口潘达斯时遇到了一些重大问题，这让我发疯了。我从终端安装了Pandas pip install pandas 以及所有的依赖关系。现在当我试图进口熊猫时，我得到了 ImportError: No module named pandas 在航站楼和机翼上都是如此。我尝试过更改python路径，但我不太确定如何做到这一点。我是个统计学家，不是真正的开发人员。理想情况下，我的目标是让咏叹调指向大熊猫所在的巨蟒，同时也能在候机楼找到熊猫： Mac / usr / local / lib / python2.7 / site-packages / Pandas 在候机楼询问时 which py

浏览 3提问于2015-01-16得票数 1

回答已采纳

4回答

我可以在Jython中运行numpy和pandas吗？

python、numpy、pandas、jython

我们有一些Java代码想要用于我们计划用Python编写的新代码，因此我们对使用Jython感兴趣。但是，我们还希望在这段Python代码中使用numpy和pandas库来进行复杂的统计分析。可以从Jython中调用numpy和pandas吗？

浏览 0提问于2013-10-19得票数 12

1回答

Python交叉表中的多个变量或行；人口统计表

python、pandas

问题我有一个类似的问题：Crosstab with multiple items，但我不想用R来做，我想用Python Pandas用交叉表来做。我一直在尝试使用Python Pandas的交叉表功能来制作一个人口统计表，但一次只能做一个人口统计表。换句话说，我想创建一个交叉表，它的所有行变量都在同一级别上。也许这不是交叉表的功能，像Pandas数据透视表这样的功能会更好？目前，我使用以下三行代码，但我认为可以通过某种方式将它们组合在一起： genderTable = pd.crosstab(refQtrData['GENDER'], [refQtrData['

浏览 24提问于2019-03-15得票数 1

1回答

使用for循环来"read_pickle“和"to_pickle”许多数据文件

python、pandas

我使用Linux和。我有一个包含日期、('/home/jayaramdas/anaconda3/pdf/senate_bills')和sponsor_id (每个保荐人多个账单)的泡菜数据文件目录(位于：'/home/jayaramdas/anaconda3/pdf/sbcommittee_id_pdf')中，列有所有赞助商ids sbsponsor_id_pdf )。我需要进入目录‘/home/./ then _bills’，打开每个被腌制的文件，创建一个单独的文件，收集sbsponsor_id_pdf文件中每个sponsor_id的所有sponsor_id，

浏览 2提问于2016-03-06得票数 1

回答已采纳

1回答

令人难以理解的类型:在熊猫身上应用功能时使用“dict”？

python、python-3.x、pandas、python-requests

我使用请求库将api包装到函数中： import pandas as pd import requests, json def foo(text): payload = {'key': '00ac1ef82687c7533d54be2e9', 'of': 'json', \ 'nko': text, \ 'woei': 'm', \ 'nvn': 'es'

浏览 2提问于2017-01-02得票数 5

回答已采纳

1回答

帮助我识别图的类型和因变量之间的关系。

time-series、regression、linear-regression、logistic-regression、categorical-data

📷 问:我不知道如何描述所附的样本图。你能帮我找出图的类型吗?如何统计测量因变量(Y轴)A类和B类之间的关系？成功对我来说是什么样子:一旦我懂得如何描述情节。是否有一种统计方法(python中的偏好)可以帮助我度量这两类数据(A&B类)之间的关系。两类关系的强弱(A&B类)，正向关系还是负向关系？列表项目我的目标是： Y轴:一个因变量(正实数)例子是完成一个单位工作所需的平均天数。考虑:y轴:如下所示：然而，因变量(y)可以分为两个或两个以上的类别。类别的一个例子是“工人类型”=雇员或承包商。雇员可以是A类，承包商可以是B类。第二个类别的例子是“Country

浏览 0提问于2023-05-24得票数 0

2回答

Python Pandas agg错误

pandas、aggregation、python-3.x

我试图在Pandas中使用agg函数生成描述性统计数据。我在使用lambda函数的一行时遇到了麻烦。当我将它们作为单独的代码行运行时，它们可以工作，但当我将它们作为一行运行时，就会出现错误。任何指导都是非常感谢的。当我单独运行它们时，以下两行代码可以工作。第一行代码： bh_df.groupby('CAT.MEDV').agg( avg_Nox=('NOX', 'mean')) 第二行具有lambda函数。 bh_df.groupby('CAT.MEDV').agg( rng=("NOX", lam

浏览 0提问于2019-12-19得票数 1

1回答

在spark数据帧上实现pythonic统计函数

pandas、apache-spark、pyspark、statistical-test

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试，我会使用像scipy这样的python库，因为标准的apache pyspark库没有它们。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as stats pandas_df=spark_df.toPan

浏览 30提问于2020-09-13得票数 0

4回答

删除行和ValueError数组的长度不同

python、pandas、numpy、dataframe、valueerror

我的dataframe有子类别，在每个类别(cat、dog、bird)下，将显示统计信息。如果行包含count和freq中的信息，则需要删除它们，并且只保留带有sd和mean值的行。一些值是NaN。 ValueError发生在我的代码中。 df： var stats A B C cat mean 2 3 4 NaN sd 2 1 3 NaN count 5 2 6 NaN freq 3 1 19 dog mean 8

浏览 3提问于2017-10-09得票数 5

回答已采纳

3回答

如何检查numpy/pandas对象，即R中的str()

python、r、numpy、pandas

当我使用R时，我可以使用str()来检查对象，这些对象在大多数情况下都是一个列表。我最近改用Python进行统计，不知道如何检查我遇到的对象。例如： import statsmodels.api as sm heart = sm.datasets.heart.load_pandas().data heart.groupby(['censors'])['age'] 我想调查一下允许我在末尾添加['age']的heart.groupby(['censors'])是什么类型的对象。然而，print heart.groupby([

浏览 1提问于2015-01-27得票数 1

2回答

如何使用Python计算Excel文件中的总工作表数量

python、excel、pandas、openpyxl、xlrd

我正在用python读取一个excel文件。 import pandas as pd import os xls = pd.ExcelFile('D:\DirectoryProject\Mapping.xlsx') 它有几个我不知道的数据表。如何使用Python统计Mapping.xlsx文件中的总页数？

浏览 3提问于2018-06-20得票数 20

1回答

基于一列返回条件的Pythonfor循环将导致另一列

python、pandas、loops

我有一个excel电子表格，其中有一个名为"Description“的列，我想迭代一遍。在本专栏中，我使用项作为标准对每一项进行分类。例如，如果描述列中写着“投资利息”，我希望代码在“描述”栏中看到这一点，并在另一列“类别”中返回“投资收入”。我已经试过了，但似乎无法让它起作用。您可以在下面看到，我尝试过不同的方法，我认为我遗漏了一些简单的东西，比如对字符串进行分类，尽管我也尝试过这样做。如果有任何问题，请让我知道，或如果需要更多的信息，因为我只是学习。 import pandas as pd GLDetail = pd.read_excel("GL_DetailFY19.x

浏览 3提问于2020-09-14得票数 1

1回答

这两个术语之间有什么区别吗？描述性统计和描述性分析

statistics、data-science、analytics

我想知道这两个术语之间是否有什么不同。描述性统计和描述性分析。谷歌没有清楚地说明这两个术语之间的共同点和不同之处。这两个术语似乎都是借助统计学对数据进行总结和分析。那么，这是否意味着它们是一样的呢？统计学家可能喜欢提到描述性统计，而数据科学家可能会称之为描述性分析。

浏览 66提问于2020-07-17得票数 1

1回答

计数数组在PySpark中每个类别包含字符串的次数

pyspark

我从spark数组“df_spark”开始： from pyspark.sql import SparkSession import pandas as pd import numpy as np import pyspark.sql.functions as F spark = SparkSession.builder.master("local").appName("Word Count").config("spark.some.config.option", "some-value").getOrCreate() np

浏览 19提问于2018-12-16得票数 3

回答已采纳

1回答

刻面网格不适用于分类变量

python、python-3.x、seaborn

尝试使用Seaborn创建镶嵌面栅格时出现错误。我有3个分类变量:性别，星期几，颜色。我想要了解每个类别中所有值彼此之间的直接关联。性别:女，男星期几: Mo、Tue、Wed、清华、周五、Sat、Sun 颜色:红色、绿色。 g = sns.FacetGrid(tips, col="Gender", row="Color") g = g.map(plt.hist, "Day of the Week") display() Get an error: KeyError-Traceback (most recent call last) <

浏览 1提问于2018-08-17得票数 2

1回答

用于统计推断的最佳Python库

python、statistics

我很好奇是否有人有Python库关于推断统计的建议。我目前正在阅读统计学习概论，它使用R作为示例代码，但理想情况下，我也希望使用Python。我的大部分数据经验是使用Pandas、Matplotlib和Sklearn进行预测建模。到目前为止，我已经找到了状态模型。这是推荐的还是其他的？谢谢!

浏览 0提问于2015-02-12得票数 5

回答已采纳

1回答

Python状态模型库降级警告

python、python-3.x、pandas、statistics、time-series

我正在用Dickey-Fuller方法做一些统计测试。我做好进口后： from statsmodels.tsa.stattools import adfuller 我收到了这个FutureWarning /env/lib/python3.5/site-packages/statsmodels/compat/pandas.py:56: FutureWarning:不推荐使用pandas.core.datetools模块，并将在以后的版本中删除。请改用pandas.tseries模块。来自pandas.core导入日期工具问题是，我无法找到adfuller()在pandas.tseri

浏览 1提问于2018-02-05得票数 2

回答已采纳

1回答

复制python中的excel解决程序函数以获得所需的输出

python、optimization、scipy、solver

假设我从第一年到第四年的现金流，cf = 30,45,52,67 贴现率(零息票) rt = .02，.03，.04，.05 计算PV在python中是直接的fwd import numpy as np import pandas as pd cf = [30,45,52,67] rt = [.02,.03,.04,.05] sum([x[0]/(1+x[1])**(i+1) for i,x in enumerate(zip(cf,rt))]) 给我输出173.1775 现在，如果我想我的净现值是180 (假设的)，我将运行一个解决方案在excel中，这将调整我的"rt“(通过添加

浏览 1提问于2020-11-07得票数 0

回答已采纳

2回答

使用pandas读取csv时获取错误行数/错误数( error_bad_lines)

python、pandas、csv

我正在用pandas读取csv文件，并且使用以下命令跳过了一些错误的行/行： df2 = pd.read_csv("Test.csv", sep=';', engine='python', error_bad_lines=False) 如何统计python中跳过的总行数？现在，我只能得到： ? 我该怎么数呢？

浏览 214提问于2019-09-25得票数 1

回答已采纳

1回答

运行python的Rstudio (rmarkdown)：描述未显示

python、r、rstudio、r-markdown

我正在Rstudio笔记本中运行一些python块，包括读取csv文件和打印基本统计数据。我找不到把统计数据(描述())打印成输出的方法。以下是代码： ```{python, engine.path = '/home/user/anaconda3/bin/python3'} 进口熊猫 pandas.read_csv('/home/user/datafiles/data.csv'，sep= ';') ```{python, engine.path = '/home/user/anaconda3/bin/python3'} Data_

浏览 0提问于2016-11-09得票数 1

回答已采纳

1回答

在Google Analytics中将一次点击视为多个事件？

google-analytics

我有一个网站，在那里有各种类别的下载，以及附加主题的下载。文件扩展名是什么并不重要。我把它们都看作是整体下载类别的一部分。我正在试图弄清楚的是如何使用遗留GA (即将迁移，但目前只需要在遗留中使用gt )-为一个操作触发多个事件。例如，考虑一个下载链接。类别可以是“政策文件”，但特定的下载也可以有主题“迁移”。因此，我需要能够看到整个政策文件的统计数据，以及给定主题的统计数据。我是否必须编写一个单独的onClick函数来发出几个gaq.push命令？如果是这样，我是否需要担心从弹出下载窗口到触发事件之间的计时问题？如果我看到了一个类似的遗留GA的例子，我就完全准备好了，并且可以应用到我的

浏览 0提问于2017-06-12得票数 0

1回答

使用遗传算法跟踪WordPress中流行的标记/类别

google-analytics、wordpress、analytics

我协调了几个编辑内容驱动的网站，这些网站是在WordPress中建立的。大多数人大量使用标签、分类和自定义分类法。我想要跟踪哪些标签/类别最受欢迎，保留访问者等。不仅仅是导航页面，还包括帖子本身。例如，我想知道类别中的帖子是否比其他帖子更受欢迎。目前，我这样做的唯一方法是根据类别概述进行概括，或者手动统计所有个别的post数据。我们已经尝试过在post标题中使用关键字和使用自定义的post类型，但这太有限了。默认情况下，这种特定于WP的跟踪在遗传算法中是很难做到的。文章中有一个url，它不包含类别或标签。考虑到一个帖子可以属于几个分类术语，这是有意义的。如果一个帖子的url通过简单的更改/

浏览 0提问于2013-06-15得票数 1

6回答

导入Python中的模块-最佳实践

python、coding-style、workflow、python-import

我是Python新手，因为我想扩展我在R中学到的技能--在R中，我倾向于加载一堆库，有时会导致函数名称冲突。 Python中的最佳实践是什么。我看到了一些具体的变化，我看不出 import pandas、from pandas import *和from pandas import DataFrame 前两者之间的区别是什么，我应该只是导入我所需要的。另外，对于那些做小程序来处理数据和计算简单统计数据的人来说，最糟糕的后果是什么。更新我找到了这个。它解释了一切。

浏览 7提问于2012-03-28得票数 92

回答已采纳

2回答

Python列表理解-从嵌套数据中提取

python

我是Python的新手，正在尝试提取一些嵌套数据。这是两个产品的JSON。一个产品可以属于零个或多个类别 {  "Item":[  {  "ID":"170", "InventoryID":"170", "Categories":[  {  "Category":[  { 

浏览 1提问于2016-08-22得票数 3

回答已采纳

2回答

python中缺少值的统计信息

python、pandas、numpy

我有一个巨大的数据集，大约有23列。我想对第18列(和其他许多列)进行描述性统计，但缺少许多值。我想知道如果单元格不是缺失值，是否存在像SAS中那样的命令来计算统计数据。在我提供的图片中，我想计算列1、2、5的描述性统计我的每一列中至少有1个N/A，因此我无法删除N/A。我尝试了以下几种方法 import numpy numpy.nanmean(df_14,axis=18) 但它并没有起作用。顺便说一句，我是个新手，正在使用Python。 Thxs，

浏览 0提问于2019-11-19得票数 1

1回答

使用python pandas的Datareader获取雅虎财经的关键统计网页与默认的雅虎财经的历史价格网页

python、pandas、web-scraping、yahoo-finance

我正在尝试使用python的pandas库从雅虎财经中抓取数据，使用DataReader从熊猫中提取历史价格数据，但我也想从雅虎财经的关键统计网页中提取数据，比如“价格/账面比”。但我不确定如何修改DataReader来拉取历史价格以外的数据。我想使用pandas库来做我所有的网页抓取，pandas中有没有不同的函数可以让我为雅虎财经的不同网页拉取数据，或者修改DataReader函数来拉取其他数据？就像将所有内容都保存在HTML中？

浏览 0提问于2015-08-17得票数 0

2回答

高效使用RPy (或其他方式)将数据从Pandas移动到R

python、r、dataframe、rpy2

我在Pandas中有一个dataframe，我想使用R函数对它做一些统计。没问题!RPy使得将数据从Pandas发送到R很容易： import pandas as pd df = pd.DataFrame(index=range(100000),columns=range(100)) from rpy2 import robjects as ro ro.globalenv['df'] = df 如果我们在IPython： %load_ext rmagic %R -i df 由于某些原因，ro.globalenv路由比rmagic路由稍慢，但没关系。重要的是:我最终要使用的数据格

浏览 4提问于2015-05-03得票数 9

回答已采纳

1回答

statsmodles调用params时出现AR模型错误

python、pandas、time-series、statsmodels

统计模型新手，尝试使用statsmodels.tsa.ar_model来适应熊猫的时间序列。 #pull one series from dataframe y=data.sentiment armodel=sm.tsa.ar_model.AR(y, freq='D').fit() armodel.params() 获取以下错误： C:\Python27\lib\site-packages\pandas\lib.pyd in pandas.lib.SeriesIndex.__set__ (pandas\lib.c:27817)() AssertionError: Index l

浏览 0提问于2013-04-21得票数 0

回答已采纳

1回答

如何在Python中建立高维多分类/离散输入变量的统计回归分析模型

machine-learning、regression、statistics、logistic-regression

我对数据科学和ML相当陌生。我有一个项目的数据通过一个发布过程。我收集了各种变量的数据，如“产品类别”、“产品线”、“设计国”、“一天中的开始时间”，还有“总时间”的数据，即项目在整个过程中所花费的时间。总共有18个不同的输入变量，每个变量要么是一个分类变量，要么是一个离散的数字，比如“一天中的开始时间”。 Design_cntry Prod_category prod_line ... time_minutes A A1 A11 ... 43.2 B

浏览 0提问于2019-02-07得票数 2

1回答

Google应用程序脚本的数据分析库

google-apps-script、statistics、data-science、data-analysis

是否有用于数据分析和矩阵操作的气体库？类似于Python numpy & pandas或JavaScript numjs &undescorejs。我想做一些气体方面的统计运算。

浏览 1提问于2018-12-18得票数 5

回答已采纳

1回答

Python&MapReduce:除了基础--如何在一个数据库上完成更多的任务

python、hadoop、mapreduce、hadoop-streaming

我有一个巨大的txt数据存储，我想收集一些统计数据。使用Hadoop流和Python，我知道如何实现一个MapReduce来收集单个列上的统计信息，例如，计算100个类别中每一个有多少记录。我创建了一个简单的mapper.py和reducer.py，并将它们分别作为-mapper和-reducer插入hadoop流命令。现在，我对如何实际处理一个更复杂的任务有些不知所措:除了上面的类别(例如地理位置、类型、日期等)之外，还会在其他不同的列上收集各种统计数据。所有这些数据都在同一个txt文件中。我是否将映射器/还原器的任务链接在一起？在处理过程中，我是否首先传递键值对长(包含所有数据)并“

浏览 3提问于2015-02-23得票数 2

回答已采纳

1回答

机器学习中统计分析(统计重要特征)与特征消除的目的是什么？

machine-learning、classification、statistics

我正在为covid19症状(生病后)开发一个分类模型，我不理解统计分析的重要性(其中一些部分)。 1.首先:基本上我们进行状态分析来了解数据。然而，计算平均值、标准差的目的是什么，如下所示： https://www.sciencedirect.com/science/article/pii/S0010482522000762#bib27 它会给我什么样的洞察力？此外，他们还进行了统计检验，如X-平方，以寻找有统计学意义的特征。假设他们有大约15个“血液参数”，测试会告诉我们其中只有10个在统计学上是重要的。这是否意味着这5将不会用于培训和可以删除？如果他们可以被删除:特征消除证明是一样的吗

浏览 0提问于2022-05-01得票数 1

回答已采纳

3回答

将唯一标签添加到行的选项卡上

python、pandas、csv、dataframe

我有一个文本文件，其中一些行移到了一个选项卡上，这表明它们是主行的一个子类别。为了对每个类别进行统计分析，我需要用唯一的标签标记每一行，以表示它们属于哪个“组”或类别。我不太确定如何在Python中实现自动化，因为文件中有数千行。如果不首先移动所有缩进行，我就无法将文件转换为csv，这显然会失去判断每一行属于哪个类别的能力。编辑：前3行将有组标签"1"，接下来的2行将有标签"2"，最后2行将分别有标签"3“和"4”。

浏览 2提问于2019-07-01得票数 2

回答已采纳

1回答

获取每个标记的最小最大值和avg视图数

python、pandas、dataframe

我的数据集是这样的 id viewcount title answercount tags first_tag 1 78 ** 2 ** python 2 87 ** 1 ** pandas 3 87 ** 1 ** pandas 4 83 ** 0 ** Excel 现在，我想得到每一个标签蟒蛇，熊猫和数据统计的分钟，最大和平均视点。我建立了单独的数据库，其中fi

浏览 1提问于2019-02-18得票数 4

回答已采纳

2回答

找不到满足要求的版本statsmodels.api [ Python ]

python、pip、statsmodels

当我尝试使用pip install statsmodels.api命令时，我遇到了以下错误错误:找不到满足要求的版本statsmodels.api (来自版本:无)错误:找不到与statsmodels.api匹配的发行版 Python版本为Python 3.8.5 C:\Windows\system32>pip安装统计信息模型已满足要求: c:\python38\lib\site-packages (0.12.0)中的numpy>=1.15已满足要求: c:\python38\lib\site-packages (from statsmodels)中的patsy>=0.

浏览 88提问于2020-09-17得票数 1

1回答

如何在不具有多重共线性的熊猫中创建虚拟变量？

python、macos、pandas、ipython、anaconda

使用Anaconda、Python 2.7.11、熊猫0.17.1、Mac OS X 10.11 (El Capitan)，如何在拟合统计模型时，从正在制作虚拟变量的列中删除一个虚拟变量，以避免多重共线性(或虚拟变量陷阱)？如果一个人进入： import pandas as pd s = pd.Series(list('abca')) pd.get_dummies(s) 返回的是： a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0 我希望删除a、b或c列以避免多重共线性。

浏览 4提问于2016-02-01得票数 3

回答已采纳

1回答

pandas系列分类数据类型与pandas分类数据类型的差异

python、pandas

我遇到了一个令人惊讶的无法访问CSV中数据列的codes属性的问题，我通过read_csv的dtype参数强制将其转换为类别类型。如果我运行以下代码 import pandas csv_str = """c1,c2 a,1 b,2 a,3 c,4 a,5""" df = pandas.read_csv( pandas.compat.StringIO( csv_str ) , dtype={'c1':'category'} ) print( "DataFrame\n{}".format( d

浏览 35提问于2019-01-17得票数 1

回答已采纳

3回答

如何从给定的计数、均值、标准差、最小值、最大值等生成数据集？

python、pandas、dataset

我有在pandas DataFrame.describe()方法中找到的所有统计细节，如计数、平均值、标准差、最小值、最大值等。我需要从这些细节生成数据集。是否有任何应用程序或python代码可以做这项工作。我想生成任何具有这些统计数据的随机数据集计数263 平均值35.790875 标准24.874763 最少0.0000000 25% 16.000000 50% 32.000000 75% 49.000000 最多99.000000

浏览 6提问于2020-05-14得票数 1

2回答

为什么在Seaborn中绘制组合的Pandas数据会给出"TypeError：-0.8不是字符串“？

python、pandas、seaborn

我正在使用Scitkit-learn (0.20.0)处理一些统计示例，并试图在使用Seaborn (0.9.0)时绘制一些东西。当我试图绘制使用Pandas的concat()函数组合的数据集时，我经常会遇到错误。下面是我所能构建的最起码的例子： import numpy import pandas import seaborn X = numpy.array([[-1, -1, "A"]]) P = numpy.array([[-0.8, -1]]) data_x = pandas.DataFrame(X, columns=('x','y'

浏览 4提问于2018-10-22得票数 4

回答已采纳

1回答

五个以上类别的分类变量不在R中的可求和表上显示

r、vtable

我正在尝试对治疗组和对照组进行平衡测试。使用vtable包中的sumtable，我按组构建了一个汇总统计表。但是，超过5个类别的分类变量不会显示在表中。例如，我有一个示例数据帧，如下所示： Treatment <- c("Treated", "Control", "Control", "Treated", "Treated", "Treated", "Control", "Treated", "Control", "Control&#

浏览 26提问于2021-04-17得票数 0

回答已采纳

2回答

SPSS中的哪个函数可以模拟R SPSS()函数？

r、spss

对于一个特定的项目，我正在从R切换到SPSS (我不被允许使用SPSS/R集成)，并且需要快速总结一个大型数据集。在R中，这非常简单，可以使用summary()函数并在几秒钟内获得每个变量的摘要。我需要知道在SPSS中是否有一个函数可以做同样的工作。如果没有，我怎么能做到呢？对于非R用户，summary.default将为每个数字列返回Min. , 1st Quartile, Median, Mean , 3rd Quartile, Max.的标签值，如果是因子或字符变量，则返回6个最常见项目的计数和“(其他)”类别的计数。

浏览 4提问于2016-05-25得票数 4

3回答