Spark -查找两个不同列中每个不同值的总出现次数_Scala spark，显示不同的列值和计数出现次数_计数列中不同值的出现次数 - 腾讯云开发者社区

apache-spark、cassandra、datastax-java-driver、spark-cassandra-connector

我有一个3节点集群的单服务器，总核心是72。 Node 1 - cassandra + spark master + 1 spark worker Node 2 - cassandra + 1 spark worker Node 2 - cassandra + 1 spark worker 但是每个火花工作者只需要两个执行者。 SparkSession spark = SparkSession.builder().appName("CassandraSparkJavaDemo") .config("spark.cassandra.conn

浏览 0提问于2018-02-26得票数 1

1回答

mySQL -重复计数具有特定CSV字符串的行

mysql

2-列MySQL表： | id| class | |---|---------| | 1 | A,B | | 2 | B,C,D | | 3 | C,D,A,G | | 4 | E,F,G | | 5 | A,F,G | | 6 | E,F,G,B | 需求是生成一个报告/输出，它告诉class列的哪个CSV值在多少行中。例如，A出现在3行( id 1,3,5)，C出现在2行( id 2,3)，G出现在4行(3,4,5,6)，因此输出报告应该是 A - 3 B - 3 C - 2 ... ... G - 4 本质上，可以忽略列id。我可以想到的草稿--首先，cl

浏览 5提问于2022-08-04得票数 0

2回答

谷歌单张

google-sheets、countif

我有一个包含一列名称和一些值列的Google表，我也有一个总可用名称的列。此表连接到Google窗体，我需要检查用户是否已在值列中填充任何值。我需要一个公式，该公式指示名称列中是否缺少名称(总可用名称)，如果出现名称，则警告该名称在其行中没有值。这是我的意思的截图下面是一个共享的表单来尝试一下

浏览 3提问于2021-03-13得票数 0

回答已采纳

2回答

计算子字符串的出现次数

c++、c

有没有一种有效的算法来统计一个更长的字符串Y中子字符串X出现的总次数？更具体地说，我想要的是从B中选择A.size()元素的方法的总数，这样就存在与B匹配的所选元素的排列。例如:在字符串Y=ABCDBFGHIJ？中搜索X=AB的总出现次数？答案是2:第一个A和第二个B，第一个A和第五个B。我知道我们可以生成所有长字符串的排列(将是N! length N string Y)，并使用KMP算法来搜索/计算X在Y中的出现次数。我们还能做得更好吗？我试图解决的原始问题如下:假设我们有一个大矩阵M，大小为r×c (r和c在10000的范围内)。给定大小为a×b的小矩阵P (a和b在10的范围

浏览 1提问于2013-10-16得票数 1

1回答

说明将并行性应用于计算目标单词出现次数的程序意味着什么

java、multithreading

这是学校用的。我正在写一个java程序，它统计某个单词在文件中出现的次数，但它需要使用多线程来完成这项任务。但我不确定这意味着什么:并行是否意味着我获得文件的总字数，创建两个线程，然后给每个线程分配文件的不同部分进行处理？

浏览 0提问于2020-04-16得票数 0

1回答

(py)Spark中分组数据的模式

python、apache-spark、pyspark、spark-dataframe

我有一个有多列的spark DataFrame。我想根据一列对行进行分组，然后为每组找到第二列的模式。与熊猫DataFrame一起工作时，我会这样做： rand_values = np.random.randint(max_value, size=num_values).reshape((num_values/2, 2)) rand_values = pd.DataFrame(rand_values, columns=['x', 'y']) rand_values['x'] = ra

浏览 1提问于2016-04-16得票数 10

回答已采纳

4回答

Spark scala删除仅包含空值的列

scala、null、spark-dataframe

有没有一种方法可以删除spark dataFrame中只包含空值的列？(我使用的是scala和Spark 1.6.2) 目前我正在做这件事： var validCols: List[String] = List() for (col <- df_filtered.columns){ val count = df_filtered .select(col) .distinct .count println(col, count) if (count >= 2){ validCols ++= List(col) } } 构建至少包含两个不

浏览 6提问于2016-09-11得票数 7

1回答

为什么Spark结构化流作业在引发异常后仍未终止

scala、apache-spark、spark-streaming、spark-structured-streaming

我正在引发一个自定义异常来测试我的结构化流式作业中的失败，如下所示。我看到查询被终止，但无法理解为什么驱动程序脚本没有失败并返回非零退出代码 streamingDF.writeStream .trigger(Trigger.ProcessingTime(10000L)) .foreachBatch { (batchDF: DataFrame, batchId: Long) => { val transformedDF: DataFrame = DoSomeProcessing(batchDF)

浏览 27提问于2020-05-29得票数 0

2回答

Google根据不同列中的标准计算唯一日期。

google-sheets、count-unique

我试图找到一个公式，给出一个人的名字出现在两个不同的列和/或两个列中之一的唯一日期的计数。我有一组数据，其中一个人的名字可能出现在一个“司机”列或“助手”列，在一天内多次出现。一天中，有些司机也可能是帮手，有些时候，司机可能会来上班，但只是作为帮助者。基本上所有的司机都可以是帮手，但不是所有的帮手都可以是司机。为了更清晰起见，我附上了一个样本表的链接。我创建了一个带有排序(惟一(平面))公式的REPORTS选项卡，为我提供了出现在DATA中的名称列表。我正在寻找一种计算唯一日期的方法--名称中的名称( REPORTS的A列)出现在这两列中( DATA的B和/或C列)，以确定工作的总天数

浏览 1提问于2021-08-16得票数 1

回答已采纳

1回答

对纱线存储器(physical+virtual)使用的火花

unix、apache-spark、hadoop-yarn、ram、virtual-memory

我很难理解Spark是如何在Yarn上进行内存管理的：我的spark-submit --executor-memory 48g --num-executors 2 当我运行top -p <pids_of_2_yarn_containers/executors>时 VIRT RES %MEM 51.059g 0.015t ~4 (container 1) 51.039g 0.012t ~3 (container 2) 系统的总内存为380 g。最后，在纱线上，当我点击每个容器页面时，我可以看到： Resource: 54272 Memory (contain

浏览 2提问于2017-09-11得票数 0

回答已采纳

1回答

相同大小但不同行长的火花读取性能差异

apache-spark、amazon-s3、apache-spark-sql、performance-testing

我正在使用spark来读取两个不同的数据集，这些数据集位于S3中的ORC格式中。但是，对于几乎相同大小的数据集来说，阅读性能上的差异是巨大的。数据集1:包含212,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000列的记录，每一列都有50列，总容量达15 s3 ，以s3桶的orc格式表示。 Dataset 2:包含29,000,000条记录，每条记录有150列，总计可达15 s3 的orc格

浏览 7提问于2017-10-05得票数 3

3回答

SQL Server执行计划键查找不一致

sql、sql-server、performance、sql-server-2005、indexing

我在SQL Server 2005中有一个很大的表，我必须通过非聚集键从该表中选择记录，并且我正在尽我所能优化这个过程。该表有相当多的列，我在三个不同的列上添加了非聚集索引。 SELECT * FROM table WHERE Field1 = 10; SELECT * FROM table WHERE Field2 = 40; SELECT * FROM table WHERE Field3 = 'A'; Field1和Field2是整型字段，Field3是varchar。当我从SQL Server请求这三个查询的估计查询执行计划时，我得到的每个查询的计划基本相同： SE

浏览 0提问于2011-01-21得票数 3

回答已采纳

1回答

根据包含文本的另一个单元格更改单元格颜色

google-sheets、conditional-formatting

我是新的谷歌工作表，并试图创建一个条件格式的自定义公式。想看看是否有人愿意帮忙。下图是两个序列号列表的样本大小。如果检测到匹配，我需要的是改变颜色的单元格。我之前所做的是将两个列表放在一列下面，并使用公式=countif(B:B，B1)>1。但是这个公式不再适用于我，因为现在我的列表中有包含一个以上序列号的单元格。 📷 所以，我所需要的帮助，在B列中找到了一个公式，如果C列中有任何变化，它将改变单元格的颜色。但对于具有多个序列号的单元格，B列中的单元格只在单元上所有序列号匹配后才会更改。我基本上是在验证C列上的所有序列号都在B列中，但我不知道如何处理它，也不知道如何使用不止一个S/N的

浏览 0提问于2019-11-08得票数 0

2回答

面向对象模型的Spark内存管理

apache-spark、hadoop-yarn

情况是这样的:我启动了一个spark作业，但由于OOM的许多任务失败而失败。所以我增加了任务的内存分配。我仍然看到OOM的一些节点失败了，但作业最终可能会成功。我的问题是Spark是如何处理这个问题的？似乎Spark可以在一次失败的尝试后重新分发数据。附注:失败的任务是在批处理作业中应用Window and Rank操作。更新:我在纱线集群模式下运行批处理作业。所有任务都配置为具有相同的内存。

浏览 0提问于2018-01-31得票数 0

2回答

我可以在哪里找到: 1)缓存命中和2) SQL Server中的缓存查找统计信息

sql-server、caching、statistics、lookup

首先，问题不是:如何查看SQL Server缓存命中率！对于这一点，我已经知道有一个视图包含精确的统计数据。我的问题实际上是:计算命中率的原始统计数据在哪里？在msdn页中，Sql server声明缓存命中率是总缓存命中率除以总缓存查找数。因此，我假设RDBMS将这两个值存储在某个地方。有人知道我在哪里可以访问它们吗？

浏览 2提问于2009-09-11得票数 2

1回答

在C++中读取文本文件并逐行返回单词计数

c++、dictionary、word-count、line-numbers

在我的编程类中，我们开始从C迁移到C++，我们目前的实验室任务是创建一个程序，该程序让文本文件读取其内容，然后返回文件中单词的列表，以及它们出现的行号和该单词在每一行上出现的次数，格式化的word行:Count。 Foo bar bar Baz Foo <EOF> 它应该返回： Foo 1:1 3:1 Bar 1:2 Baz 2:1 到目前为止，我们所讨论的唯一数据结构是地图，我们用它编写了输出总字数的程序 int main(int argc, const char*argv[]) { map<string, unsigned int> table;

浏览 3提问于2015-04-14得票数 0

回答已采纳

2回答

如何在MATLAB中计算列值的出现次数

matlab

假设我有一个包含两个值0和1的列，我该如何计算0、1和百分比的出现次数。如果矩阵的大小是100，并且我有45个1's，我将得到45%

浏览 2提问于2011-03-07得票数 1

回答已采纳

1回答

统计一个字符串在另一个字符串中的每个字符的出现次数

c++

我正在尝试编写一个函数，该函数接受两个字符串作为参数，并返回第二个字符串中每个字符在第一个字符串中出现的总次数。例如，<code>D0</code>将返回<code>D1</code>。我希望利用STL。我已经写了下面的函数来统计一个字符串中出现了多少个字符，但是在循环上调用这个函数来解决上面的问题似乎效率很低。 <code>A2</code>

浏览 20提问于2019-04-02得票数 1

回答已采纳

2回答

字符串字符出现次数

我想知道char []在C中是如何工作的。在我的程序中，我试图找出给定一个句子的每个字符出现的总次数。 int main(void) { char sampleInput[] = "Long long nights await ahead"; int n, i, g, h, t, s; int lengthOfArr = (sizeof(sampleInput)/sizeof(sampleInput[0])); for(int i = 0; i < lengthOfArr; i++) { if(sampleInput[i] == 'N'|| sa

浏览 0提问于2019-10-21得票数 1

1回答

将数据存储到别名为mysql的列中

javascript、mysql

有没有办法将数据存储到别名的列中？此列将用于计算总销售额，但实际上不是mysql表中的现有列。换句话说，我的表将没有存储总销售额的列，我需要动态地将其作为别名列，在别名列中，我将间接成本列中的数据减去产品销售列中的数据，以获得总销售额的数字，并将其存储在实际不在我的表中的列中。

浏览 2提问于2016-12-17得票数 0

1回答

Google函数

google-sheets

我尝试简单的分类账功能，其中用户提供一个数量和个人价格以及“买入”或“出售”在一个单独的列。我有一个用于总更改的字段--如果用户在指定的列中写了"buy“，那么总更改将为负值，如果他们写"sell”，则为正数。如果这两个词都不存在，它就会出现错误。我为整个变更列编写了这个函数，但不知道如何在其中包含一个"IFELSE“部分：=IF(B3 = "Buy", -(C3 * D3))

浏览 4提问于2016-05-04得票数 1

回答已采纳

1回答

pandas - group和count n个唯一值

python、pandas

我有这样的数据帧df： User,C,G 111,ar,1 112,es,1 112,es,1 112,es,2 113,es,2 113,es,3 113,es,3 114,es,4 我希望作为输出返回的内容是： G,nU,ar,es 1,2,1,1 2,2,0,2 3,1,0,1 4,1,0,1 基本上，对于每个G，我计算的是nU列中不同User的数量以及C中出现的字符串的数量。每个用户都有一个唯一的C值。例如，在编号为1的G中，我有两个用户(111和112)，一个出现在'ar‘中，另一个出现在'es’中(无论是否有两个112出现，我只需要(112，'es'

浏览 3提问于2015-05-13得票数 2

回答已采纳

1回答

多个字段中的CodeIgniter查询组和计数值(相同类型)

mysql、sql、codeigniter

我想要在模型中构建一个查询，用于在具有相同类型值的3列(一个MySQL表中)中对值进行分组和计数: INT(11)。值为"1“"2”"3“的Column1。值为"2“"3”"3“的Column2。具有值的Column3："1“"1”"1“。结果需要的是一个包含两个参数的数组:这个数字的数字和计数器。例如:数字"1“和计数器"4” 在我的CI模型中 public function report_1() { $sql = 'SELECT col1, COUNT(col1) as c

浏览 6提问于2014-12-13得票数 2

回答已采纳

1回答

S3和Spark:文件大小和文件格式的最佳实践

apache-spark、amazon-s3、pyspark

我需要读取数据(来自一个包含5列的RedShift表，表的总大小约为500 job 1tb)，通过PySpark将数据从PySpark读入Spark，以完成每天的批处理任务。是否有任何最佳做法：我如何用S3存储数据的首选文件格式？(格式是否重要？) 最佳文件大小？任何资源/链接，可以指出我的正确方向，也将发挥作用。谢谢!

浏览 1提问于2019-07-10得票数 1

回答已采纳

1回答

spark web UI符号

apache-spark

我在我的一端运行示例作业，spark作业UI显示总正常运行时间为26秒，但当我将作业的持续时间列加起来时，它只有17-18秒，我应该依靠它来确定运行作业执行逻辑的总时间.I不关心启动和停止集群的时间.Is 26秒，是这样的情况吗?我如何忽略启动和停止集群的时间，并获得我的逻辑的最终执行时间。我的spark配置如下所示： val conf = new SparkConf().setAppName("Metrics").setMaster("spark://master:7077").set("spark.executor.memory", &#

浏览 1提问于2017-01-03得票数 0

1回答

当多次返回时，聚合计数会发生变化

neo4j、cypher

我正在通过php发送一个密码查询。 match (n:person)-[:watched]->(m:movie) where m.Title in $mycollection return count(distinct n.id); 这将返回我的集合中观看过电影的人数。我实际上想返回姓名列表，并且返回n.name运行良好。当我试图同时返回n.name和count(distinct n.id)时，我丢失了总计数，而得到了每行的计数。 match (n:person)-[:watched]->(m:movie) where m.Title in $mycollection retu

浏览 10提问于2019-01-18得票数 0

2回答

计算组内值的比例

python、apache-spark、pyspark、apache-spark-sql

我正在尝试计算在子组中特定列中出现的特定值的比例。示例数据帧 pdf = pd.DataFrame({ 'id': [1, 1, 1, 1, 2, 2, 2, 3, 3, 3], 'letter': ['L', 'A', 'L', 'L', 'L', 'L', 'L', 'A', 'L', 'L'] }) df = spark.createDataFrame(pdf) df.show(

浏览 26提问于2021-02-08得票数 0

回答已采纳

4回答

在Java-logic中构建倒排索引

java、indexing、hashmap

我收集了大约1500份文档。我解析了每个文档并提取了令牌。这些标记存储在hashmap中(作为键)，并且它们在集合中出现的总次数(即频率)被存储为值。我必须对其进行扩展以构建倒排索引。也就是说，术语(Key)|它出现的文档数-->DocNo|在该文档中出现的频率。例如， Term DocFreq DocNum TermFreq data 3 1 12 23 31

浏览 1提问于2012-10-27得票数 0

1回答

Apache :设置executor实例

apache-spark、hadoop-yarn、executors、apache-spark-1.6

我在纱线上运行我的星火应用程序，参数如下：在火花违约情况下： spark.master yarn-client spark.driver.cores 1 spark.driver.memory 1g spark.executor.instances 6 spark.executor.memory 1g 成纱-site.xml： yarn.nodemanager.resource.memory-mb 10240 所有其他参数都设置为默认参数。我有一个6节点的集群，每个节点上都安装了Spark客户端组件。每次我运行应用程序时，在Spark中只有两个执行器和一个驱动程序可见。执行器出现在不同的节

浏览 3提问于2016-10-26得票数 4

3回答

是否有方法在UDF中添加一个新列(在java星星之火中)

java、apache-spark、user-defined-functions

我有一个火花数据集的列(在java中)，我希望这个列的所有值都成为新列的列名(新列可以用一个常量值填充)。 For example I have: +------------+ | Column | +------------+ | a | | b | | c | +------------+ And I want: +------+----+----+---+ |Column| a | b | c | +------+----+----+---+ | a | 0 | 0 |0 | | b | 0 |

浏览 1提问于2019-08-08得票数 1

回答已采纳

1回答

我如何在A列中执行数学函数，其中B列等于一个特定值？

sharepoint

例如，如果我有两个列表，Alpha和Bravo，其中list Alpha是操作列表，List Bravo从List Alpha绘制来为管理员显示信息：列表阿尔法(源列表) A列(玩家名称)/Column B(本垒打次数) John/2 John/5 John/11 玛丽/3 Suzy/7 Suzy/6 列表Bravo (管理员列表) 列A(名称)/Column B(其他列表中的项目数)/Column C(总人力资源) John/3/18 玛丽/1/3 苏西/2/13 或者：列表Bravo列A显示每个名称出现在列表Alpha列A中的单个实例。 B列在列表A中计数项目数:列表Bravo

浏览 3提问于2016-02-02得票数 0

1回答

计算每一行其他单元格中出现的总量*总数

excel、excel-formula

如何求出同一行列中"Qx“出现次数总数x倍的总和？示例数据：我想要什么？我希望计算Qx的总次数，并将其与相应行上的数量相乘。整个列的和应该显示在Q2字符串(E2:E5)旁边。示例功能： Row 4: (Q1 occurrences =) 1 * (Amount in A4 =) 10 = 10 Row 6: (Q1 occurrences =) 2 * (Amount in A6 =) 20 = 40 Total to show in E2: 50 我可以计算单行Q2在一个=(LEN(B5)-LEN(SUBSTITUTE(B5;"Q2";"

浏览 2提问于2020-03-15得票数 0

回答已采纳

3回答

如何在电子表格中输出最常见的值以及该值出现的次数？

string、excel、text、google-sheets

有一个列Values，其中包含一些Strings，然后在最常见的值和该值的出现次数(即Strings的模式)下面显示。下面是一个例子。 +--------+ | Values | +--------+ | AA | +--------+ | BB | +--------+ | AA | +--------+ | AA | +--------+ | GG | +--------+ | DD | +--------+ | DD | +--------+ | | +-----------------+--------+ | M

浏览 0提问于2013-08-06得票数 16

回答已采纳

1回答

Spark TSV文件和错误的列spit

scala、apache-spark、apache-spark-sql

我有很多行的TSV文件。大部分代码行都工作得很好，但我在使用以下代码行时遇到了问题： tt7841930 tvEpisode "Stop and Hear the Cicadas/Cold-Blooded "Stop and Hear the Cicadas/Cold-Blooded 0 2018 \N 24 Animation,Family 我使用Spark和Scala将文件加载到DataFrame中： val titleBasicsDf = spark.read .format("org.apache.spark.csv") .

浏览 2提问于2018-11-25得票数 1

2回答

计算表示马尔可夫链规则的字典中值的总频率和相对频率

python、python-3.x、dictionary、frequency、markov-chains

我制作了一个函数make_rule(text, scope=1)，它简单地遍历一个字符串并生成一个字典，作为马尔可夫文本生成器的规则(其作用域是链接字符的数量，而不是单词)。 >>> rule = make_rule("abbcad", 1) >>> rule {'a': ['b', 'd'], 'b': ['b', 'c'], 'c': ['a']} 我的任务是计算这个系统的熵。为了做到这一点，我想我需要知道：值

浏览 29提问于2019-04-16得票数 0

回答已采纳

2回答

Excel比较与筛选

excel、worksheet-function、vba

这是一个相当复杂的VBA问题。我有一个包含两个工作表的excel工作簿:数据和分析。数据表包含一个带有名称的列(T)和一个带有结果(Y)的列。分析工作表包含一个名称为(B1)的单元格。我想在数据表列T中搜索analyse B1单元格上的列名。在确定了具有相似值的单元格之后，我需要输出相应结果列的内容。results列有三个可能的值: 1、2或3。我希望显示每种可能性的总出现次数。尝试了Macro和Vlookup，但在尝试获取结果列的值时遇到了麻烦:( 期待您的回复！致以敬意，普拉纳夫

浏览 2提问于2013-06-09得票数 0

1回答

在Dreamweaver中显示融合图表中的计数查询结果

mysql、dreamweaver、fusioncharts

我尝试在fusion charts中显示count查询结果，但默认选项是仅选择表的列。我不想显示直接来自数据库的列数据，而是希望显示列中某个值的总出现次数。例如，如果列"Age“包含值1,23,45,23,23,67,87。我想在融合图上显示23次出现的总次数，即3次。

浏览 0提问于2014-07-24得票数 0

2回答

在单独列中添加各因素的出现范围(数据帧，R)

r、dataframe

我有数据帧df df <- data.frame( gene = c("ABC","ABC","ABC","DEF","DEF","DEF","GHI","GHI","JKL"), stringsAsFactors=TRUE ) 我想在此数据框架中添加一列，该列包含列gene中每个因素的出现范围，从而形成此数据框架： df <- data.frame( gene = c("ABC","ABC",&

浏览 0提问于2021-01-13得票数 0

回答已采纳

1回答

更快的Server:插入null，还是跳过它？

sql、sql-server、performance、query-performance

简单的Server问题。更快的是：插入跳过列的位置(作为NULL) 插入在哪里显式插入空？ ……为什么？ CREATE TABLE dbo.myTable ( Id int CONSTRAINT PK_myTable_Id PRIMARY KEY, Name varchar(200) NULL ) GO INSERT INTO dbo.myTable(Id) VALUES (1); INSERT INTO dbo.myTable(Id, Name) VALUES (2, NULL); GO 请提供参考或基准(这样你的回答不只是一个意见)。谢谢。 PS：

浏览 0提问于2018-04-26得票数 0

1回答

使用google脚本显示达到一定数值时的值

javascript、google-apps-script、duplicates、countif

我有一个包含日期列的google工作表，如果列中的值达到4倍(例如，2019年7月1日)，我将无法显示或设置单元格的值 Date Column Row1: July 1, 2019 Row2: July 2, 2019 Row3: July 1, 2019 Row4: July 4, 2019 Row5: July 1, 2019 Row6: July 1, 2019 Row7: July 5, 2019 我已经在google script中尝试了以下代码： function countDate(){ var ss = SpreadsheetApp.openByUrl

浏览 5提问于2019-07-17得票数 0

1回答

计算字符串列中关键字列表出现的总数。

我有一个数据框架df，其中包含一个名为strings的列。这一栏中的值是一些句子。例如： id strings 1 "I like you" 2 "I like you, too." 3 "I like you so much 4 "I like you very much" 5 "I don't like you" 现在，我有一个关键字列表， ["I", "don't", "like", "you

浏览 1提问于2019-04-27得票数 0

回答已采纳

1回答

在scala中匹配两个数据格式

scala、join、apache-spark-sql

我在SCALA中有两个RDDs，并将它们转换为dataframes。现在有两个dataframes.One prodUniqueDF，其中有两个名为prodid和uid的列，它有产品的主数据。 scala> prodUniqueDF.printSchema root |-- prodid: string (nullable = true) |-- uid: long (nullable = false) 第二，ratingsDF，其中有名为prodid、custid、ratings的列 scala> ratingsDF.printSchema root |-- prodid:

浏览 5提问于2016-06-29得票数 1

回答已采纳

1回答

组合的openoffice计算实例

count、libreoffice、openoffice.org、calc

我想要一个开放办公室计算公式，以获得单行中两个或更多列的出现次数。但却不知道该怎么做。我只能对单个值使用COUNTIF，但它似乎不适用于多个值。我希望数据保留在它自己的列中。例如 34, 64 = 2 77, 35 = 0 77, 34 = 1 。 a b c d 1 77 34 64 2 75 34 64

浏览 16提问于2020-02-20得票数 0

1回答

具有λ函数的PySpark - map

python、pandas、apache-spark、lambda、pyspark

浏览 0提问于2019-06-24得票数 1

回答已采纳

3回答

火花-我读得对不对？

apache-spark、pyspark、databricks

我使用以下方法将csv文件读取到Spark中： df = spark.read.format(file_type).options(header='true'，引号=‘\’，ignoreLeadingWhiteSpace='true'，inferSchema='true').load(file_location) 当我尝试使用来自另一个源的示例csv数据时，它显示了一个清晰显示的标题行，后面是数据。当我在我的主数据(它有40列，数百万行)上尝试它时，它只显示前20个列标题，而不显示数据行。这是正常的行为，还是它读错了？更新:我将标记

浏览 0提问于2018-10-21得票数 1

回答已采纳

3回答

如何处理spark sql中缺少的列

scala、apache-spark、apache-spark-sql

我们正在处理无模式的JSON数据，有时spark作业会失败，因为我们在spark SQL中引用的一些列在一天中的某些时间内不可用。在这些小时内，spark作业失败，因为所引用的列在数据帧中不可用。如何处理这种情况？我尝试过UDF，但是我们缺少太多的列，所以不能真正地检查每一列的可用性。我还尝试在更大的数据集上推断模式，并将其应用于数据帧，期望缺少的列将用null填充，但模式应用程序失败并出现奇怪的错误。请给出建议

浏览 5提问于2018-08-10得票数 2

1回答

初始作业未接受任何资源；虚拟机中的spark出错

scala、apache-spark

我的本地机器中有三个Ubuntu虚拟机(克隆)，我想用它们来创建一个简单的集群。一个VM用作主虚拟机，另外两个用作从属虚拟机。我可以成功地ssh来自其他虚拟机的每个虚拟机，并且我在主服务器的conf/slaves文件中有两个从服务器的ip，并且在从服务器运行start-slave.sh spark://master-ip:7077的每个VM.When的spark-env.sh中都有主服务器的ip，它们出现在spark UI中。但是当我尝试并行运行时，我总是得到关于资源的消息。为了测试代码，我使用了scala shell、spark-shell --master://master-ip:7077

浏览 1提问于2020-06-07得票数 0

1回答

如何自动将常量列放入火花放电中？

pyspark、apache-spark-sql

我有一个火花数据，我需要删除所有的常数列从我的数据。因为我不知道哪些列是常量，所以我不能手动取消选择常量列，也就是说，我需要一个自动过程。我很惊讶，我没有找到一个简单的解决方案的堆叠溢出。示例： import pandas as pd import pyspark from pyspark.sql.session import SparkSession spark = SparkSession.builder.appName("test").getOrCreate() d = {'col1': [1, 2, 3, 4, 5], 'col2

浏览 4提问于2019-04-21得票数 3

回答已采纳

1回答

是否有一个R函数可以在我的数据集中的特定列中获取名称

编辑:使用其中一个用户的帮助，我可以使用"table(ArrestData$CHARGE)"，但是，由于有超过2400个条目，许多条目都被省略了。我在找五大收费，这有密码吗？此外，我看到的是一个特定的议会地区(这是另一个名为“CITY_COUNCIL_DIST”的变量)。我想看看哪一项是某一区的最高5项收费。这有密码吗？谢谢你的帮助！原文如下就像我如何使用“name(MyData)”来查看变量的名称一样，我想知道是否可以使用代码来查看特定列的名称/响应/数据点。换句话说，我试图查看特定数据列的行中的名称。我想看一下正在累计使用什么名字。在我发现这一点之后，我想知道行

浏览 1提问于2019-07-31得票数 1

3回答