带有python和pandas的SPSS风格的多列计数“聚类”条形图_Python、Pandas -根据行和多列中的多个条件对值进行计数 - 腾讯云开发者社区

、、

我有一些分类数据 example_data = {'Role':['Teacher', 'Teacher', 'Student', 'Admin', 'Student'], 'Preference': ['Online', 'Blended', 'Blended', 'Face-to-face', 'Face-to-face'], 'Location' : ['C

浏览 8提问于2021-05-07得票数 0

回答已采纳

1回答

找到最佳聚类数(在分层聚类中)

、

我正在尝试用SPSS做聚类分析。在R中，我们可以使用轮廓图来确定最佳聚类数。如何使用SPSS找到最优聚类数？ PS。我是第一次接触SPSS。

浏览 2提问于2018-08-21得票数 0

1回答

pd.read_sav和pyreadstat太慢了。如果我必须使用SAV/SPSS文件格式，如何加快pandas处理大数据的速度？

、、

我已经从用于语法编写/数据管理的SPSS过渡到python和pandas，以获得更高级别的功能和编程。问题是，将SPSS文件读入pandas非常慢。我使用更大的数据集(100万行或更多行，通常包含100+列)。似乎有一些非常酷的插件可以加快CSV文件的处理速度，比如Dask和Modin，但我不认为这些插件可以处理SPSS文件。我想继续使用pandas，但我必须坚持使用SPSS文件格式(这是我工作的其他所有人都使用的格式)。对于如何在计算机升级和/或文件分块之外实现更快的数据处理，有什么建议吗？

浏览 3提问于2020-09-03得票数 0

1回答

GCP平台无法读取存储在(Python)中的.SAV文件

、、、、

我有一个AI平台VM实例与一个Python3笔记本。我还有一个包含大量.CSV和.SAV文件的桶。使用像Pandas这样的标准python包读取CSV文件中的数据没有什么困难，但是我的笔记本似乎无法在我的存储桶中找到我的.SAV文件。有人知道这里发生了什么和/或我如何解决这个问题吗？ import numpy as np import pandas as pd import pyreadstat df = pd.read_spss("gs://<STORAGE_BUCKET>/datafile.sav") ---------------------------

浏览 5提问于2020-07-30得票数 1

回答已采纳

1回答

什么是丙酮的方式(在熊猫的自然功能)计数发生的某一特定的情况下(SPSS计数等效)？

、、、

每一种情况下，我都需要计算某个值(假设它是3)在一系列列中出现的次数。为此，我编写了一个脚本，如下所示： import pandas as pd import numpy as np objsourcedf = pd.DataFrame({"a": [1, 2, 2], "b": [3, 1, 1], "c": [3, 2, 1], "d": [4, 3, 8]}) print(objsourcedf) objauxdf = objsourcedf.transpose(

浏览 4提问于2020-11-03得票数 1

回答已采纳

2回答

在R中过滤聚类分析中的变量

、、、

我正在尝试对一个噪声很大的金融数据集运行聚类分析(PAM)。有超过100个变量，其中许多是高度共线的。考虑到噪声和共线性的数量，在整个列数组上运行聚类算法几乎是无意义的，我不希望使用PCA，因为我最终将得到每个集群的组件，而不是现有变量的范围，我计划进一步分析。在评估由10个变量组成的已定义组的聚类趋势(hopkin统计)时，我可以确定聚类是否可行。我的问题是，是否有一种方法可以在每个可能的组中循环霍普金的统计量，比如10个变量，这样我就可以对具有最佳霍普金统计量的组运行聚类算法，等等。我可能对此大错特错，但任何建议都是值得感谢的。

浏览 7提问于2018-08-16得票数 1

2回答

为什么Jupyter使用列的值来填充列名？

、

我使用的是一个SPSS .sav文件，它有典型的列名，比如名称、类型、宽度等等。“names”列标记行m1、I1、I2等。这是Jupyter笔记本： import pandas as pd df = pd.read_spss('./Data.sav') df.head() 如你所见，列名是‘name’的条目:宽度，而不是'name'，‘’，'width‘作为列名，有’name‘的值: m1，I1，I2等。我是Jupyter和SPSS的新手，不知道从哪里开始。编辑:根据Rahul Singh的建议，我添加了header=None，尽管read_sps

浏览 30提问于2019-11-11得票数 0

1回答

聚类分配中的负聚类数

运行SPSS两步聚类分析，并要求增加一个新的列与聚类分配。这个列主要是用正值创建的，但是我注意到了几个-1值。有人知道这意味着什么吗？谢谢!

浏览 1提问于2018-09-12得票数 0

回答已采纳

1回答

考虑丢失数据的部分k-均值聚类

、、、、

我有一个大的数据框架，我必须使用来自数据框架的8列，其中的值要么是“强烈同意”，要么是“同意”或“不同意”。根据这8列，我需要创建一个新列，它可以判断该行属于哪个集群(1-8)(最好使用K-均值集群)。但是我的数据也有NaN值。考虑到NaN值，即部分k-均值聚类，我想进行聚类.(请参阅下面的数据集) 这是因为：在SPSS中已经有一个代码，其中通过设置\缺失=成对的来进行聚类。由于技术原因，我正试图将此代码转换为pyspark。我找不到pairWISE的任何替代方案(除了做部分k均值聚类分析之外)，以前的集群是使用这个PAIRWISEcode创建的，现在我别无选择，只能将它转换为pyspark

浏览 4提问于2022-09-04得票数 1

1回答

有序变量聚类的合适方法

、、

我通读了所有(或大部分)之前提出的问题，但找不到问题的答案…… 我有13个变量是按顺序测量的(thy代表知识转移渠道)，我想对它们进行聚类(HCA)，以便进行下面的二进制logistic回归分析(由于N=208的样本大小，不可能包括所有13个变量)。由于规模的原因，因子分析似乎是不合适的。我正在使用SPSS (但也尝试了R)。问题： 1:我对计数数据使用卡方度量而不是(平方)欧几里得距离是正确的吗？如何证明选择的方法是正确的？我尝试了single，complete，Ward和average，但都给出了不同的结果，我找不到来源来做决定。提前谢谢你！

浏览 1提问于2018-07-03得票数 0

1回答

根据pandas中的其他列修改列数据

、

我是python和pandas的新手，我有一个带有数据的csv，可以使用pandas读取和提取数据，如下所示 data = pd.read_csv("train.csv") 我有很多列下面是有问题的列 ? 在这里，我希望将所有条目的价格列转换为相当于USD的值。下面是我尝试过的代码 currencyToUSD = { "USD": 1, "AUD": 0.7, "EUR": 1.12, "HKD": 0.13, "INR": 0.014, "KRW": 0.00085 }

浏览 7提问于2019-06-24得票数 1

回答已采纳

1回答

把sav转换成熊猫df错过了上一栏

、、

我使用以下代码将SPSS .sav文件转换为熊猫数据： import pandas as pd import savReaderWriter as spss raw_data = spss.SavReader(filename, returnHeader = True) raw_data_list = list(raw_data) df = pd.DataFrame(raw_data_list) 这段代码运行良好，只是最后一列不包含在dataframe中。我正在转换一个巨大(且效率很低)表，它有70,484列和3,609行。然而，熊猫的数据栏中只有70483个列，所有的行都在那里。这里出

浏览 0提问于2018-06-28得票数 2

回答已采纳

1回答

当SPSS (.sav)通过rpy导入大熊猫时，如何保存标签？

、、、、

我希望工作的SPSS文件(.sav)使用pandas。在没有SPSS程序的情况下，以下是转换为.csv时典型文件的样子：在调查前两行的含义时(我不知道SPSS)，似乎第一行包含Labels，而第二行包含VarNames。因此，当我把这份文件带到熊猫里时： import pandas.rpy.common as com def savtocsv(filename): w = com.robj.r('foreign::read.spss("%s", to.data.frame=TRUE)' % filename) w = c

浏览 2提问于2016-03-29得票数 9

回答已采纳

2回答

使用Python运行SPSS分析和检索值(Python -> Spss -> Python)

、、

我花了几天的时间定位我自己的spss和spssaux模块-这些都是很好的资源。虽然我觉得我缺少一些概念上的理解，因为我可以做一些基本的事情，比如通过spssaux.getValueLabels或spss.DataStep()检索值标签。 print spssaux.getValueLabels(2) >>> {u'1': u'Neutral', u'0': u'Disagree', u'2': u'Agree'} 或 dataset = spssDataset() variable

浏览 4提问于2014-08-01得票数 2

回答已采纳

1回答

在Windows7 (x64)上读取pandas数据帧中的大型SPSS文件的性能

、、

我有一个很大的SPSS文件(包含100多万条记录，列略低于150列)，我想将其转换为Pandas DataFrame。将文件转换为列表需要几分钟，将其转换为数据帧需要几分钟，设置列头也需要几分钟。有没有什么我遗漏的优化方案呢？ import pandas as pd import numpy as np import savReaderWriter as spss raw_data = spss.SavReader('largefile.sav', returnHeader = True) # This is fast raw_data_list = list(raw_d

浏览 2提问于2014-08-07得票数 4

2回答

使用Pandas (Python)读取西班牙语SPSS文件时出错

、、

早上好! 我正在尝试使用Python编写一个SPSS文件(.sav)。这是我的代码： import pandas as pd df=pd.read_spss('C:/Users/bonif/Documents/CSALUD01.sav') df.head() 我得到了这个错误： df=pd.read_spss('C:/Users/bonif/Documents/CSALUD01.sav') File "C:\Users\bonif\AppData\Local\Programs\Python\Python39\lib\site-packages\

浏览 0提问于2021-04-23得票数 1

3回答

在SPSS要点中，我能否获得返回Python以供进一步使用的SPSS变量的值？

、、、

我有一个数据库，每个案例都包含有关手写数字的信息，例如： Digit1Seq :在12位数的序列中，"1“被绘制出来 Digit1Ht:数字"1“的高度 Digit1Width:宽度 Digit2Seq:数字"2“的相同信息关于数字"12“ 我发现我现在需要的信息组织有点不同，以及。特别是，我想要一个新的变量，包括第一个数字的高度和宽度，然后是第二个数字的高度和宽度，等等，如SPSS vars。 FirstDigitHt FirstDigitWidth ... TwelvthDigitWidth 下面是我在SPSS中编写的一个Python程序，应该是一个非常简

浏览 1提问于2013-07-25得票数 0

1回答

如何在集群解决方案和变量之间进行相关性分析？

、、、、

我见过一位教授在SPSS中演示了几个分析，我需要执行相同的分析得出相同的结果，但不知道如何进行；您能否建议如何执行以下分析(SPSS中的哪些函数或步骤)？ 1)在执行聚类分析(使用Ward的方法)之后，输出表显示了每个集群的频率，集群1有X个数字，集群2有Y个数字。 2)比较困难的部分是，他使用聚类解进行R平方相关和皮尔逊相关；在皮尔逊相关分析中，他使用"Ward“(基于少量变量的聚类解)作为自变量，另一个变量作为因变量。我找不到任何地方将"Ward“作为一个因素包括在内，也看不到在皮尔逊相关性中应该在哪里包括因变量和自变量。 3) R平方相关也是如此，"Ward“是一

浏览 0提问于2016-11-26得票数 0

1回答

PanelOLS :双向聚类？

、、

在Python/Pandas中，我使用PanelOLS函数。此函数使您能够对标准错误进行聚类。例如： PanelOLS(y=panel.Y, x=panel[['X1', 'X2'], nw_lags=10, time_effects=True, cluster='time') 但是，我也希望通过entity和time对标准错误进行聚类。是否有办法这样做？如果没有，那么statsmodel中的面板函数如何？我很难找到关于使用状态模型的Panel回归的文档。 UPDATE如果我控制使用newey延迟(nw_lags)，这不像cl

浏览 6提问于2015-08-12得票数 1

1回答

使用python/Pandas读取sas/stata/spss导入脚本

、

我得到了一个大型数据集，其中包含SAS、SPSS和Stata的导入脚本。如果没有这些导入脚本，将数据文件带入Pandas只会导致一堆难以理解的编号列标签。有没有什么好的库或标准解决方案可以用python读取这些导入脚本并将它们应用到数据集，或者我是否应该尝试在SAS脚本上运行一堆正则表达式，以便将它们转换为类似python的东西？

浏览 1提问于2016-05-06得票数 1

1回答

对聚类算法的输入

、、

我有250个时间序列，我要把它们聚在一起，看看哪个时间序列有多少相同的行为。但我的问题是，无论我在谷歌和StackOverFlow上搜索什么，我都找不到一个例子来告诉我是否要把我所有的时间序列合并在一起？或者可以将它们保存在分离的变量中？任何关于输入的解释都会有帮助。我正在使用python 3.6进行编程，对于集群，我使用sci-kit学习库。我的每个时间序列都是一个带有一列的熊猫数据。

浏览 2提问于2017-12-21得票数 0

1回答

使用ggplot2实现两步集群的可视化

、、

在spss中有一种聚类，称为两步聚类。视觉选项是由spss提供的，类似于的左侧图。具有集群的结果、使用的变量的标签/名称以及它们的得分，如下所示 data.frame(cluster = c(1,1,1,2,2,2,3,3,3), value = c("Google","Amazon","Yahoo","Google","Amazon","Yahoo","Google","Amazon","Yahoo"), score = c(2194.2,43.

浏览 2提问于2020-07-11得票数 0

回答已采纳

3回答

如何让Pandas读取SPSS文件？

、、

我尝试使用read_SPSS命令，但它不起作用。这个错误似乎告诉我我需要pyreadstat，但我甚至无法安装它。但是，我为什么需要pyreadstat呢？阅读.sav的能力不是这些天才内置在熊猫里的吗？我很困惑..。下面是我尝试使用read_SPSS时得到的错误文本 ImportError Traceback (most recent call last) <ipython-input-33-935d54be8b7a> in <module> ----> 1 twitter=pd.read_spss

浏览 1提问于2021-04-17得票数 2

1回答

如何用R中的控制语法文件读取普通的固定宽度SPSS数据

、、

2000-2012年的数据集是SPSS格式的带有固定宽度数据列的txt文件，有随附的SPSS控制文件(语法文件？)告诉你如何解析数据。我似乎找不到方法让R摄入这些数据，我看过haven和foreign，但没有任何运气。例: SPSS固定宽度文件：例: SPSS控制文件：

浏览 9提问于2022-10-18得票数 1

回答已采纳

1回答

R中的叠加条形图误差

、

我试着用r创建一个堆叠的条形图，我知道一些R，但主要是SPSS。在SPSS中，条形图真的很难看，所以我一直试图用ggplot2来做一些更优雅的东西。在其他帖子之后，我试着让我的变量发挥作用。我把数据转换成长表格。因为这是一项原创的研究，我不能给出太多的细节。第一列是分类数据，第二列是数字数据，因为我从SPSS导入了它，但实际上也是分类的。在长形中，有110个obs和2个变量。我这里的代码是： Barchart <- ggplot(psydatacomp, aes(x=PsyType, y=Agreement, fill=row)) + geom_bar(stat = "i

浏览 6提问于2016-12-07得票数 1

回答已采纳

2回答

如何将群集从特定列中切片

、、、

df['clusters']包含带有4个集群0,1,2,3的数据框架。我使用csv格式阅读了pandas格式的数据帧，并实现了k均值聚类，并生成了4个集群。星系团位于df['clusters']中。假设有4个带有标签0,1,2,3的集群。现在如何分割一个列并获取属于集群1的列

浏览 0提问于2019-03-01得票数 0

回答已采纳

2回答

如何将“是”和“否”之和成一个总数，使用matplotlib、熊猫、从CSV导入的python绘制一个图。

、、、

问题1)一般来说，我对python和编码都很陌生。我想从CSV获取我的数据，CSV有一列标有“美国OSHA可记录？”。在那一栏中，每一个答案都是“是”或“否”。我想显示一个plot.bar，显示"23是的“和"7的不”。本质上，将“是”和“否”的总和相加在列中，然后在1张干净的条形图中显示总数。它将显示两个条形图，在两个条形图的上方都有总数……问题是，条形图现在在X轴上有一行，每一行大约27次地说“不，是，不，是的，不”。我希望用户能够轻松地看到一个条形图，它的顶部只有两个条形图，总显示在像这张图像的顶部。这是我的代码，我不知道我需要在列中总结是和否。 import pan

浏览 1提问于2019-09-17得票数 0

回答已采纳

2回答

从SPSS到Python日期的整数日期

、、、

我有日期从SPSS导入到Python通过熊猫。日期作为整数(序数)导入。例如，日期"2015-08-02"被导入为13657852800。当我尝试的时候 pd.to_datetime(13657852800, unit="s") Traceback (most recent call last): File "<ipython-input-39-ae44044ad39e>", line 1, in <module> pd.to_datetime(13657852800, unit="s")

浏览 1提问于2019-06-07得票数 3

1回答

使用“组内链接”进行聚类

、、

为了提高R的效率，我正在重新对SPSS .sav文件进行分层分析。数据集看起来如下： id hour0 hour1 hour2 ... hour23 1 0.5 0.3 0.1 1.1 2 0.3 0.3 0.2 0.6 3 1.0 0.8 0.5 0.9 在SPSS中，我必须告诉软件哪个变量是案例标识符(这里是‘id’)，所以它在创建矩阵时会排除它。但我在R中没有发现任何争议： d <- dist(mydata, method = "euclidean") # distance matri

浏览 2提问于2013-08-04得票数 0

2回答

如何将机器学习分类方法应用于一维时间序列数据

、、

我有IMU数据(加速计、磁力计和陀螺仪)，在不同的练习中(下沉、俯卧撑、仰卧起坐、穿孔)。这些练习是在单个1D时间序列信号中完成的，我想使用机器学习分类方法来识别信号中的不同练习。我不想将信号压缩成0D峰值，并以这种方式构建我的特征，而是保持时域的完整性。下图显示了包含四个练习的加速度计的示例数据。因此，我的问题是，在这样做时，哪种方法最有效？K-means聚类在0D意义上是完美的，那么有1D等价吗？对python (sklearn)的任何资源都将非常感谢！提前感谢！

浏览 2提问于2018-05-25得票数 2

1回答

pca和聚类分析，计算非常慢

、、、

我的数据有30,000行和140列，我正在尝试对数据进行聚类。我正在进行pca，然后使用大约12台pc进行聚类分析。我随机抽取了3000个观测数据，然后运行了44分钟，同时运行pca和层次结构聚类。一位同事在SPSS上也做了同样的工作，而且花费的时间也大大减少了？知道为什么吗？下面是我的代码的一个简化版本，它工作得很好，但是对于任何超过2000次的观测结果都很慢。我包括了USArrest数据集，它非常小，所以它并不真正代表我的问题，但显示了我想要做的事情。我不太愿意发布一个大的数据集，因为这看起来很粗鲁。我不知道如何加快集群的速度。我知道我可以对数据做随机样本，然后使用一个预测函数为测试

浏览 4提问于2019-10-31得票数 0

回答已采纳

1回答

从人类指定的聚类中学习聚类标准

、、、、

在我的公司，我们每天都有一个数据流，操作员手动将数据聚类成4到10个条目的小组。我想利用机器学习向操作员建议集群，使他们的工作更容易。我有一个大约700个条目和120个维度的数据集，它已经被聚集到大约200个组中。数据集是分类特征和顺序特征的混合，大致分为两部分。作为一种有监督的聚类问题，有没有从已知聚类中学习距离度量或规则的方法？我目前没有他们所遵循的规则来对数据进行聚类。了解他们所遵循的一些规则会有多大帮助？有没有其他技术可以让这个问题变得更容易处理？我正在使用Python和Pandas库来处理数据。提前感谢！

浏览 1提问于2017-06-27得票数 0

1回答

如何防止自动为从SPSS导入的缺失数据赋值

、、

假设我有一个名为"ab.sav“的spss文件，如下所示： gender value value2 F 433 329 . . 787 . . . M 121 . F 311 120 . . 899 M 341 . 在spss (Variable View)中，我用值1和2分别为M和F定义了gender的标签。当我使用以下命令在python中加载它时： >>> from rpy2.robjects.packages i

浏览 0提问于2015-10-24得票数 0

1回答

是否自动将数据类型分配给Dataframe？(Python - Pandas)

、、

我得到了一个SQL表，其中所有188列都设置为nvarchar。当通过Pandas将这个表引入Python时，所有列的数据类型都变成了“对象”。我正在用Python创建一个机器学习模型，为了创建适当的特性，为这些列提供适当的数据类型是有意义的。例如，带有数字的列应为INT 我要注意的是，我不能修改SQL表，因此我只能在python中修复数据。有没有一种方法可以根据列中的数据自动分配数据类型，而不是逐个将数据类型分配给188列？

浏览 1提问于2019-11-19得票数 0

4回答

当spss.Submit()中的spss命令创建一个警告时，spss脚本就会停止。

、

假设我有两个变量列表 list a: a1 a2 a3 list b: b1 b2 b3 我想用这样的方式来处理： TEMPORARY. SELECT IF a1=b1. FREQUENCY someVar. TEMPORARY. SELECT IF a2=b2. FREQUENCY someVar. TEMPORARY. SELECT IF a2=b2. FREQUENCY someVar. 我试图在python循环中这样做： BEGIN PROGRAM. import spss la = ['a1', 'a2', 'a3'] lb

浏览 0提问于2015-09-15得票数 2

回答已采纳

1回答

如何在python中将列标题从int转换为str

我从spss导入了一个文件(sav文件)，然而，我的列的标题显示为整数而不是字符串。有没有办法解决这个问题？下面是我使用的代码……如果有任何帮助，我将非常感谢！ import fnmatch import sys # import sys import os import pandas as pd #pandas importer import savReaderWriter as spss # to import file from SPSS import io #importing io import codecs #to resolve th

浏览 87提问于2018-06-27得票数 -1

1回答

是否可以使用熊猫和/或pyreadstat大块读取一个大的SPSS文件，或者是否存在其他选择？

、、

我有一个SPSS数据库，我需要打开，但它是巨大的，如果打开天真如在下面的代码，它饱和RAM并最终崩溃。 import pandas as pd def main(): data = pd.read_spss('database.sav') print(data) if __name__=='__main__': main() 同样的熊猫功能，读取一个SAS数据库允许chunksize和iterator关键字，映射文件，没有读取它的所有内存在一次尝试，但对于SPSS这个选项似乎是缺失的。我是否还可以使用另一个python模块来完成此任务

浏览 6提问于2020-02-27得票数 2

回答已采纳

2回答

我应该使用多少变量来聚类一个巨大的数据集？

、、

我对44名受访者进行了一系列长期调查(虽然不多，但我做得再好不过了)。我需要使用两步分析在SPSS中对样本进行聚类，但是确实有很多变量。在6份不同的调查问卷中，约有200个定量问题(变量)，更不用说定性问题了。我的第一个问题是:我应该使用所有的量化变量来进行聚类分析吗？我阅读的所有手册都为集群解决方案选择了一些选定的变量，而不是所有这些变量。第二个问题是，我试图对所有的定量数据使用分层聚类，但SPSS通知说：警告没有足够的有效案例来执行聚类分析。 ...which意味着我拥有的数据集不能用来进行聚类分析.在这种情况下，我应该做什么来执行聚类分析？

浏览 9提问于2016-11-15得票数 0

1回答

如何在pandas系列柱状图上设置错误条形图上限

、、

📷 我正在尝试将错误条形图放在pandas系列条形图中。我见过的其他方法都不起作用。我尝试更改capsize值或更改plt.rcParams'errorbar.capsize‘或使用plt.style.use('seaborn-paper')的值。 s = pd.Series({'a':1,'b':2,'c':3,'d':4,'e':5}) err = [0.1,0.2,0.3,0.4,0.5] plt.figure() s.plot(kind='barh',xe

浏览 14提问于2019-07-03得票数 0

回答已采纳

2回答

我不能从.sav文件中删除案例

、

我有一些.sav文件，我想检查错误数据。我所说的坏数据与问题无关。我已经用python编写了一个脚本，使用spss模块来检查案例，如果它们是坏的，则删除它们。我在一个数据步骤中定义了一个dataset对象，然后获取它的案例列表。然后我使用 del datasetObj.cases[k] 删除数据步骤中的问题案例。这就是我的问题：假设我有一个数据集foo.sav，它是spss中的活动数据集，那么我可以运行如下内容： BEGIN PROGRAM PYTHON. import spss spss.StartDataStep() datasetObj = spss.Dataset() casel

浏览 2提问于2017-05-23得票数 1

1回答

针对单个结果变量的聚类变量- ClustOfVar

、

我有一个数据集的变量，代表分数和特征(定性和定量的混合在这两方面)。我想根据每个分数来聚类特征(而不是个人观察)。因此，我想在trait_1和trait_15的基础上形成相似的特征簇，然后对分数2和3重复。下面是数据结构的例子。我在想，我可以使用ClustOfVar包来形成这些集群，如果我只是尝试将所有变量聚集到类似的组中，我就会理解这一点。但是，我不知道如何根据其他变量之一对它们进行聚类。如果有人有建议，我会很感激的。提前谢谢。 Score_1 Score_2 Score_3 Trait_1 Trait_2 Trait_3 … Trait_15 n1 n2 n3 … n100000

浏览 1提问于2012-09-14得票数 1

1回答

当将SPSS导入到Pandas dataframe时，如何保存数值？

、、、

我已经将SPSS文档导入到Pandas，但是，当这样做时，它似乎将所有数字值转换为文本值，使用变量标签而不是SPSS数据集中的数字数据。例如，下面的图像显示了数据集中变量Processing_1的第一组值。这些数值在SPSS中有与描述性文本相匹配的标签(实际上是从强烈反对到强烈赞同的1-5标度)。我使用以下代码将其导入Pandas。 import pandas as pd import os, sys, pyreadstat df = pd.read_spss("URL") vtf = "Processing_1" for ind in range(

浏览 14提问于2022-01-07得票数 0

1回答

启动脚本中的SPSS - Python函数

、、

后续的，我试图创建一个SPSS自定义函数的Python，使用SPSS语法。我有一个语法很好的程序： begin program. import spss,spssaux, sys def CustomFunction (): #function code here CustomFunction() end program. 但我希望CustomFunction()是可用的“正常”SPSS语法。

浏览 2提问于2016-08-18得票数 1

回答已采纳

2回答

是否有可能在KMeans中用Python(Scikit-Learn)对非浮动数据进行集群？

、、、

我正在尝试将KMeans(Scikit-learn)应用于下面提到的数据。。我已经看到了集群中显示Float64值的足够多的例子。我想知道的是，在df[Description ]列上是否可以进行聚类，其x和y轴为经度和纬度。我的代码看起来是这样的。 from sklearn.cluster import KMeans import matplotlib.pyplot as plt import numpy as np import matplotlib from sklearn.preprocessing import LabelEncoder import pandas as pd

浏览 0提问于2016-12-17得票数 2

1回答

制作不同聚类的条形图

、、、、

我目前正在学习K-means，所以现在我正在用Python编写一个程序来确定彼此相似的不同文本簇。所以现在我得到了两个不同集群的结果(使用了一些虚构的单词，但其他的都是一样的)。 print(dfs) = [ features score 0 America 0.577350 1 new 0.288675 2 president 0.288675 3 Biden 0.288675 , features score 0 Corona 0.593578 1 COVID-19 0

浏览 4提问于2021-03-02得票数 1

1回答

pandas.read_spss是否将日期时间误读到unix中？

、、、、

我有一个sav文件，其中有一个%m/%d/%Y字符串格式的datetime列。当我在pd.read_spss()中阅读它时，它似乎没有任何与日期时间相关的参数，它的结尾看起来像是unix时间，只不过几个世纪后，它将具有独特的值，包括13778726400、13841884800等等。然而，当我将读列输入pd.to_datetime时，它并不被解释为我所期望的日期，而是在1970年最初的unix日期之后几秒钟： pd.to_datetime(df.col) 0 1970-01-01 00:00:13.778726400 1 1970-01-01 00:00:13.8417

浏览 4提问于2022-03-14得票数 0

回答已采纳

1回答

集群中的任何对象不应该有一个概率值> 0吗？产生不一致的结果

、、

我正在使用hdbscan在Python木星笔记本中找到数据集中的集群。 import pandas as pandas import numpy as np data = pandas.read_csv('data.csv') 这些数据如下所示： import hdbscan clusterSize = 6 clusterer = hdbscan.HDBSCAN(min_cluster_size=clusterSize).fit(data) 还有耶！一切似乎都正常！所以我想看到一些结果，所以我将这些结果添加到我的数据框架中： data.insert(18,"

浏览 3提问于2020-11-05得票数 0

2回答

如何使用k-means (Flann和python)对文档进行聚类？

、、、、

我想根据相似性对文档进行聚类。我已经尝试过ss深处(相似散列)，非常快，但是我被告知k-means更快，而flann是所有实现中最快的，所以我尝试用python绑定来尝试flann，但是我找不到如何在文本上这样做的例子(它只支持数字数组)。我对这个领域(k-意思，自然语言处理)非常陌生.我需要的是速度和准确性。我的问题是：我们是否可以使用KMeans进行文档相似分组/聚类(Flann似乎不允许任何文本输入) 弗兰是正确的选择吗？如果不是，请建议我使用支持文本/文档集群的高性能库，该库具有python包装器/API。 K-表示正确的算法吗？

浏览 9提问于2012-09-19得票数 11

回答已采纳

1回答

python中的Kmeans聚类--将原始标记赋予预测的簇

、、、、

我在目标变量中有一个带有7个标签的数据集。 X = data.drop('target', axis=1) Y = data['target'] Y.unique() 数组(“_体重，超重_级别_我，超重_级别_二，肥胖_类型_我”，“不够_体重，肥胖_类型_二，肥胖_类型_三”，dtype=object) km = KMeans(n_clusters=7, init="k-means++", random_state=300) km.fit_predict(X) np.unique(km.labels_) 阵列(0，1，2，3，4，5，6) 在

浏览 0提问于2022-04-27得票数 2

1回答

模式识别

、

我的智商是70，我根本不聪明，不知道该怎么做。但!我想要的是。例如，让Python从MySQL读取一个表并找到列的模式！例如，当Y列在'1.56‘左右，colum Z在'756’左右时，列X通常是'foo‘值，例如，它发现所有的’明显‘数据.你们中有些人有没有一个简单的计划让我来做这件事？或者给我参考一些信息，书籍等等？不是一本天才的书！ Python是否适合这样做呢？它将包含大约60万行，大约20列.今天的标准游戏电脑.

浏览 0提问于2010-12-02得票数 0