Spark Scala:获取数据帧行中非零列的计数_如何在spark scala中找到数据帧中的词组计数？_Apache Spark:通过MutableList (Scala)迭代数据帧的行并创建新的数据帧 - 腾讯云开发者社区

apache-spark、dataframe、count、multiple-columns、rows

我有一个场景，在这个场景中，我得到了一行中每一列的非零计数。

浏览 23提问于2019-02-26得票数 0

回答已采纳

1回答

N列m行的动态数据帧

scala、apache-spark

从json(动态模式)读取数据，并将其加载到dataframe。示例数据帧：import spark.implicits._ (1, "ABC"), (3, "GHIJ") ).toDF("id", &quo

浏览 6提问于2020-06-04得票数 0

回答已采纳

2回答

新插入的蜂巢记录不显示在火花壳的星火会话中

apache-spark、hive

我运行了一个简单的Spark程序来获取数据从Hive到session使用spark。会话没有显示新插入的9行。因此，当我在星火会话中计数时，它仍然显示36行。为什么会发生这种情况？--------++--------+ 在spark会话中，需要做些什么才能将刷新(新的)数据输入会话？当插入新数据时，Hive表中的实际行数为

浏览 4提问于2019-05-24得票数 1

回答已采纳

1回答

如何删除星火(SCALA)中的整个数据帧？

scala

有一些函数可以删除Spark(SCALA)中的列和行，但是却找不到任何函数来删除整个数据frame.Is，有一种方法可以删除Spark(SCALA)中的数据帧吗？

浏览 0提问于2016-10-15得票数 3

4回答

无法在Spark (Scala)中的数据帧上执行用户定义函数

scala、apache-spark、user-defined-functions

我有一个数据帧df，如下所示 +--------+--------------------+--------+------+ | id| path|somestff事实上，在不同的目录中有数百个文件。我想在这里完成的是读取列路径中的文件，对文件中的记录进行计数，并将行计数的结果写入到数据帧的新列中。(RDD.sca

浏览 30提问于2019-04-01得票数 2

回答已采纳

1回答

我使用的是Spark 1.6和scala 2.10。我有以下数据帧res24: org.apache.spark.sql.DataFrame = [DEST_COUNTRY_NAME: string, ORIGIN_COUNTRY_NAMEwithColumnRenamed("sum(count)","destination_total") .sort(desc("destination_to

浏览 4提问于2018-01-04得票数 0

1回答

无法将CSV文件加载为spark中的数据

apache-spark-sql、apache-spark-dataset

我试图在数据帧中加载一个CSV文件，我的目标是将第一行显示为CSV文件的列名。$class.filterNot(TraversableLike.scala:278)def main(args : Array[String]): Unit = { .textFile("D:/Scala/C2ImportCalE

浏览 0提问于2018-12-31得票数 2

回答已采纳

1回答

如何在spark中对scala中的Long和BigInt进行数学运算

scala、apache-spark、apache-spark-sql、bigdata

我有两个不同类型的值，如下所示ageSum: org.apache.spark.sql.DataFrame = [sum(age): bigint]scala> totalEntries第一个值来自数据帧上的聚合函数，

浏览 7提问于2017-01-26得票数 0

回答已采纳

1回答

从Spark2中的spark* temp表创建表后，记录丢失*

scala、dataframe、rdd、partitioning、apache-spark-2.0

我已经从下面的序列创建了一个数据帧。DF，在这些行中暂时缺少数据。因此，我迭代了mapPartitions中的DF以添加新行。import org.apache.spark.sql.但是从由"newDf“数据帧创建的临时表创建的物理表中获得10条记录。，最终的表计数

浏览 9提问于2018-12-17得票数 3

回答已采纳

3回答

如何在pyspark中找到数据帧的大小

pyspark、apache-spark-sql

如何复制此代码以获取pyspark中的数据帧大小？scala> val df = spark.range(10)Statistics(sizeInBytes=80.0 B, hints=none) 我想要做的是将sizeInBytes值放入

浏览 0提问于2020-06-03得票数 2

1回答

spark hbase连接器-异常"java.lang.UnsupportedOperationException: empty.tail“

apache-spark、hbase、apache-spark-sql

我们使用的是HDP 2.4.2，spark 1.6是使用Scala 2.10.5编译的。Hbase版本为1.1.2.2.4.2.0-258Except

浏览 16提问于2017-03-02得票数 4

1回答

数据帧的scala* joinWithCassandraTable结果*

apache-spark、cassandra、spark-cassandra-connector

我正在使用Datastax spark- Cassandra -connector来访问Cassandra中的一些数据。我的需求是将RDD与Cassandra表连接起来，获取结果并将其存储在hive表中。我正在使用joinWithCassandraTable加入cassadra表。加入后，生成的RDD如下所示 com.datastax.spark.connector.rdd.CassandraJoinRDD[org.apache.spark.sql.

浏览 20提问于2020-07-17得票数 0

7回答

从spark* dataframe获取特定行*

apache-spark、apache-spark-sql

scala spark数据帧中有没有df[100, c("column")]的替代品？我想从spark data frame的一列中选择特定的行。例如，上述R等效代码中的100th行

浏览 613提问于2016-02-07得票数 45

回答已采纳

2回答

使用scala统计spark数据帧中列组合的实例

scala、apache-spark、dataframe

我在scala中有一个名为df的spark数据帧，它有两列，即a和b，a列包含字母，b列包含数字，如下所示。a b g 0 g 0我可以使用以下命令获取不同的行它提供了以下内容：---------- f

浏览 2提问于2015-10-28得票数 9

回答已采纳

3回答

如何使用createDataFrame创建pyspark数据帧？

pyspark

我知道这可能是一个愚蠢的问题。

浏览 1提问于2018-03-12得票数 2

回答已采纳

1回答

从文件系统中填充Properties对象

scala、dataframe、apache-spark、apache-spark-sql、databricks

TL:DR或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？全面问题：不过，我能够将该文件读入Spark</

浏览 4提问于2020-12-29得票数 1

回答已采纳

2回答

正确使用.cache()和.unpersist()

scala、dataframe、apache-spark、caching

我有一个脚本，多个数据帧的联合和插入会导致CSV文件。我需要优化它的执行速度。我最近学习了缓存和取消持久化。这是我所做的： val grc = Tables.getGRC(spark) // This is my first df.val grc_cache = grc.cache() var sigma = Tables.getSIGMA(spark, use_database_sigma(0)) // Second D

浏览 43提问于2019-09-06得票数 0

回答已采纳

4回答

Java & Spark* :在dataset中添加唯一的增量id*

java、apache-spark

通过使用Spark和Java，我尝试将n列的DatasetRow添加到Integer标识列中。示例:我有一个包含195行的数据集。当我使用这三种方法之一时，我得到了一些类似于1584156487或12036的id。另外，这些身份证不是连续的。我需要/想要的非常简单:一个整数id列，它的值为1到dataset.count()前面的行，其中id =1后面跟着id = 2，等等。我怎样才能在Java/

浏览 3提问于2017-08-03得票数 6

回答已采纳

1回答

触发Sql JDBC到关系型数据库管理系统高效获取表数

apache-spark、apache-spark-sql

考虑将jdbc数据帧映射到rdbms表，如下所示df.count 不建议使用此计数操作，因为它会将数据加载到

浏览 1提问于2020-04-02得票数 0

1回答

Spark dataframe筛选器最小值(列)失败

scala、dataframe、apache-spark

我正在使用hadoop 3.0.0和spark 2.2.0中的以下scala代码处理数据帧。BAQ是ID列，AAA是日期YYMMDD的字符串列。scala> val dtfAbnoFirs=dtfAbno.filter("AAA>='20201201' and BAQ<>'0'").scala> dtfBaseEsti.show(10,false); org.ap

浏览 34提问于2021-04-08得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云