字符串中变量的聚合数据和频率列表

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、

我有以下数据表3: A c 15: B

浏览 13提问于2018-02-21得票数 0

回答已采纳

2回答

对于字母表中的每个字母，创建一个变量来存储字符串中每个字母的频率，并为其赋值为零。

创建一个变量来存储给定的字符串“您可以拥有没有信息的数据，但是没有数据就不能拥有信息”。将给定的字符串转换为小写，创建一个包含每个英文字母小写字母的列表对于字母表列表中的每个字母:创建一个变量来存储字符串中每个字母的频率，并为给定字符串中

浏览 13提问于2022-09-25得票数 0

0回答

我怎样才能使我的代码在R中更有效率-它是重复性的

、、

我有一个关于我的代码效率的问题。我的环境中有9个数据帧，对于每个数据帧，我都需要执行相同的步骤。步骤和代码如下(仅对其中两个数据帧显示)：wordcloud(words，对它们的频率求和，然后基于聚合的结果创建一个世界云。环境中</em

浏览 7提问于2017-12-04得票数 1

回答已采纳

3回答

字母频率- Python

我有以下一套指示：对于字母表中的每一个字母：创建一个变量来存储字符串中每个字母的频率，并将初始值设为零。对于给定字符串

浏览 6提问于2022-10-08得票数 1

2回答

根据R中rest的惟一性聚合一列

、、

我希望根据其余列的惟一性来聚合freq列。我通常用但是在这种情况下，变量将是未知的，因为用户将使用闪亮的下拉列表来选择变量。2014 56Chlamydia F 32 AA 1/3/2014 52 因此，在我的例

浏览 0提问于2018-05-16得票数 1

回答已采纳

1回答

在R中使用hclust进行加权观测频率聚类

、、、

为了克服这个问题，我选择聚合我的矩阵来合并那些相同的观察值，从而将我的矩阵减少到大约10K个观察值。我有这个聚合矩阵中每一行的频率。我现在需要将此频率作为权重合并到我的分层聚类中。这些数据是500K观察值的数值和分类变量的混合，因此我使用了daisy包来计算我的聚合数

浏览 15提问于2017-07-25得票数 1

1回答

R中文本数据中两对组合的出现频率

、、、

我有一个包含几个字符串(文本)变量的文件，每个应答者都为每个变量写了一两句句子。我希望能够找到每个词组合的频率(即“能力”和“性能”的频率)。(data.words.list) data.freq.list <- table(data.words.vector) 这给出了每个单词的列表，以及它在字符串变量<

浏览 4提问于2013-09-18得票数 0

回答已采纳

1回答

为什么在SPSS中汇总前后的总和是不同的？

我有一个以ID作为第一列的大型数据库。第二个变量，EventName，是时间序列。因此ID将在每个时间序列中重叠。下列变量识别每个唯一ID的主变量和重复项。下面的变量是每个时间段的MH诊断(0=no；1=yes)。TypeMH上升到25。下面示例中的最后一个变量是所有MHTypes 1-25的1s之和。当我为每个MH类型在整个数据</em

浏览 0提问于2019-09-06得票数 1

回答已采纳

2回答

如何将带有逗号分隔项的字符串聚合到带有Pandas ()的列表中？

、、、

我有如下数据：joseph fr 14，它捕获名称变量的所有三个字母子字符串。我希望将其聚合到一个列表中，并将每个逗号分隔的项按每一行附加到列表中，并将其视为一个列表项。"ann，anne“在最终列表中被认为是一个单一

浏览 4提问于2019-11-07得票数 5

回答已采纳

2回答

创建一个新变量，将两年的观测结果汇总在一起

我想用x随时间的频率来绘制一些数据，以年份为单位。我已经能够将数据操作成一个数据框架，在这个框架中，我拥有某些二进制字符串数据的频率。按照目前的情况，我按年计算频率，每年有两行，以便绘制不同二进制结果的频率。不过，我想按年列出这些意见总数的百分比。"no", "yes", "no

浏览 4提问于2013-09-13得票数 0

回答已采纳

3回答

Web 3- ASP.NET应用程序-高效地聚合数据

、

我正在运行一个ASP.NET MVC 3 web应用程序，并希望收集统计数据，例如：我想汇总这些数据并将其细分如下：我想知道聚合数据的最干净和最有效的策略是什么。我能想到一对夫妇，但我

浏览 10提问于2011-09-19得票数 2

1回答

我想在我的SPSS数据集中计算教育进步。我有一些编程经验，但我被语法卡住了。我有一个变量my_education。我想迭代地将my_education与education_father和education_mother进行比较。如果my_education比我父母的大，我就有进步，如果没有，那就不是进步。所有变量都是用数字编码的。我想主要的问题是如何使用代码来迭代整个数据集，并在最后增加计数器。有人能帮我吗？但仍有许多案例没有统计，

浏览 29提问于2019-02-18得票数 0

1回答

如何使用哈希码作为其值设置索引列？

、、、

我正在尝试使用具有分类值(字符串值)的数据集来训练机器学习模型。然而，火花模型不能使用字符串值进行训练，因此我必须将它们转换或将它们索引为一个数值。然而，我发现Spark的唯一字符串转换器是StringIndexer，但是我发现这是非常不可靠的，因为它根据字符串的频率对string进行索引，并且不能保证在我的测试文件中字符串值的频率</e

浏览 1提问于2017-07-31得票数 1

回答已采纳

1回答

建立多个子表数据库模型的最佳方法

、、、

我所拥有的:一个带有的Postgres数据库。模型是什么:一个主要实体Event和许多子继承(10+)。每个孩子都有不同的属性。如何使用它:模型将按时间顺序查询所有聚合事件的列表，然后按其“类型”进行筛选，以便显示(Parameter，Symptom，.)。这意味着我想要一个具有最近20个list的子集的Event(例如)。对于这20个数据中的每一个，我将从表中获取每个单独<em

浏览 2提问于2020-10-20得票数 0

1回答

基于R中另一个变量中的不同字符串，统计字符串(组合在多个变量中)的频率

我目前正在处理R中的国家/地区数据。当我希望将所有国家/地区变量一起计数时，为了计算整个数据帧中国家/地区变量的组合频率，我使用： combinedfreq <- data.frame(table(unlist(dataset[c("Country1国家字符串是相互排斥的，因此在每个观察值中，相同的字符串不能重复，并且

浏览 0提问于2018-10-08得票数 0

1回答

非孤立词的文本挖掘

、、

我没有要查找的特定单词列表(在本例中，我将使用grep() )。我没有文本挖掘方面的经验，但经过一些研究后，我发现大多数文本挖掘工具(例如(tm) )都需要分离单词(“蜂蜜是甜的”)，以便能够对它们进行聚合和分析。所以我想我要找的是一个用蛮力比较字符串的工具。例如，查找所有超过3个字符的相似字符串(在频率表中以"n“为特征。我的假设正

浏览 3提问于2017-10-24得票数 2

回答已采纳

1回答

如何在Pandas中绘制带有预聚合数据的直方图？

、、、、

你能帮我找出如何用预聚合数据绘制直方图吗？我的意思是，我已经将数据分组到存储箱中，以便从SQL Server加载它们并保存到xls文件。现在我有两个变量:频率和bin变量(价格)。例如，我有一个0- 10美元的价格箱。这里有120个实例。然后我有10 - 20美元的价格箱，里面有500个实例，等等。问题是我有太多的预聚合箱。因为价格在0到50000之间变化，步长

浏览 0提问于2016-03-16得票数 3

1回答

Solr -按组分列的合计术语频率

、、

假设我在Solr (最新的)中爬行和索引了以下一组分组网站： "id":"1", 1和2是不同

浏览 2提问于2013-07-28得票数 1

1回答

使用Haskell进行无监督聚类

、、、、

我正在尝试开发一种算法，它可以报告相似模式在数据集之间出现的频率和贴近度。简单的例子：set2 = [1, 2, 3, 0, 0, 0, 0, 0, 0]这些集合中的每一个都有1、2和3，但这些数字在set2和set3中更接近。我怀疑我可以通过列表理解来完成

浏览 0提问于2012-05-05得票数 2

回答已采纳

1回答

如何在不按总和聚合的情况下进行排序(Google Data Studio)？

我使用一个简单的CSV文件作为数据源，反过来在Google data Studio中显示表中的数据。我想有一个默认的显示已经排序的变量(Commission)，其中有一个数值。当我向Google Data Studio的维列表中添加Commission和其他各种变量，然后尝试将Commission指定为变量作为主排序时，默认情况

浏览 34提问于2020-04-21得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云