Spark DataFrame过滤器在随机情况下无法正常工作

、、、

这是我的DataFrame df.groupBy($"label").count.show +-----+---------+

浏览 9提问于2019-02-19得票数 2

回答已采纳

1回答

相同的代码从不同的运行中返回不同的结果

、

在我的代码中，有一个dataframe是我从一个hive表创建的。我用函数过滤器做了一个简单的过滤器。但结果是随机的:我多次执行包含过滤器的同一个单元格，有时返回一行，有时不返回。我确信在预期的结果中只有一行。并且没有同时在源文件上的其他工作。df = spark.sql("select id from hive_table limit 100") df.filter(col('id&

浏览 0提问于2019-02-05得票数 0

1回答

读取json列和直接数据值列

下面的语句满足了我的需要，但它只能在spark-shell中运行，而不能在scala程序中运行。spark.read.json(dataframe.select("col_name").as[String]).schema输出。我有

浏览 14提问于2020-03-12得票数 0

2回答

火花过滤器从来没有应用于DataFrame在Java

、、、

我对Spark非常陌生，我有一个查询，它从两个Oracle表中获取数据。这样的表必须由一个字段连接，该字段可以很好地处理下面的代码。但是，我需要应用过滤器，就像在Oracle "where“子句中那样。例如，雇用年龄在25岁至50岁之间的员工。我还必须应用GroupBy过滤器，并使用OrderBy对最终结果进行排序。其余的过滤器根本没有应用，我也不知道为什么。你能帮帮我吗？我确信我遗漏了一些东西，因为没有编译错误。数据加载良好，但"where“条款似乎对数据没有任何影响，尽管有些雇员年

浏览 6提问于2015-07-08得票数 2

回答已采纳

1回答

如何强制Spark只执行一次转换？

、

我有一个spark工作，随机采样我的输入数据。然后，我为输入数据生成bloom过滤器。最后，我应用过滤器并将数据与数据集A连接起来。由于采样是随机的，因此应该只执行一次。我可以在第一步的Spark DAG中看到一个绿色的缓存步骤，但连接仍然是从数据加载和随机采样开始的。我还发现，当工作进程内存不足时，缓存的数据可以被逐出，这是我没有想到的。filter and join input data with datase

浏览 1提问于2019-05-20得票数 1

1回答

表的行筛选器无效

、

我从Bigquery中的一个视图(在配置spark会话之后导入该视图)中获得了pyspark中的数据：这个recomendaveis_mid数据集是：.

浏览 2提问于2021-01-06得票数 1

2回答

从Spark GroupedData对象中选择随机项目

、、、

我刚开始在Python中使用Spark，并且一直无法解决这个问题:在pyspark.sql.dataframe.DataFrame上运行groupBy之后df.groupBy('teamId') 如何从每个结果组(按teamId分组)中选择N随机样本而不进行替换？我基本上是尝试从每个团队中随机选择N用户，也许一开始使用groupBy是错误的？

浏览 0提问于2015-11-17得票数 21

回答已采纳

1回答

是否有可能在Spark中为随机森林建立一个通用的训练管道？

、、、

我刚开始使用Spark和Spark，我发现它比Python和sklearn困难得多。def trainClassifier(df: DataFrame, labelColumn: String) {} Spark中的很多开发时间都花在将列编码成数值列上，然后利用这些特性形成一个向量，这样Spark的

浏览 0提问于2017-08-16得票数 2

回答已采纳

1回答

PySpark:随机化数据帧中的行

、、、、

我有一个数据帧，我想对数据帧中的行进行随机化。我尝试通过给1的分数来采样数据，但这不起作用(有趣的是，这在Pandas中起作用)。

浏览 0提问于2016-04-23得票数 11

回答已采纳

0回答

从S3运行Spark作业会产生随机的输入大小值

、、、

我刚刚开始使用S3作为输入，使用EC2作为集群的实例来运行Spark作业。我用的是Cloudera，Spark 2.3.0，Dataframe，Jupyter notebook，python 2。对于我来说，看到作业阶段及其任务的随机输入大小值是非常奇怪的。所谓随机，我的意思是这些指标的值在没有任何逻辑的情况下不断增加和减少。我从来没有见过这样的事情，使用HDFS作为输入(来自内部集群)代码： dataframe =

浏览 1提问于2018-07-11得票数 0

2回答

从case类创建DataFrame

、、、

我想从Spark2.3中的case类创建一个DataFrame。Scala 2.11.8。val EmployeesData = Seq( Employee("Anto", 21, "Software Engineer", 2000, 56798)) }下面是我在spark- 中的代码： case clas

浏览 12提问于2018-05-14得票数 2

3回答

将spark* DataFrame转换为pandas DF*

、、

有没有办法将Spark Df (非RDD)转换为pandas DFvar some_df = Seq( ("B", "yes"), ("B",

浏览 2提问于2018-06-21得票数 51

回答已采纳

1回答

找不到用于通过Kafka流式传输mongo db数据的数据集中存储的类型的编码器

、、、

io.confluent.connect.avro.AvroConverter' and下面是我在项目中使用的库依赖项libraryDependencies += "org.apache.kafka" % "kafka-streams" % "0.10.2.0import org.apache.spark.sqlval

浏览 32提问于2018-08-10得票数 0

回答已采纳

1回答

Spark2.2中多列不工作的DataFrame过滤器&&操作符(scala)

、

我在Spark2.2中使用了一个dataframe，并在其中加载了数据，我在过滤器函数中使用&& operator，它使用多列。错误的意思是错误: value &&不是字符串的成员这是我的密码。scala> val orders = spark.sparkContext.textFile("D:\\SparkExamples\\retail_db\\orders\\part-00000")scala> val ordersSchema =

浏览 1提问于2019-10-29得票数 1

回答已采纳

0回答

如何创建具有随机值的简单DataFrame

、、

我正在尝试创建一个非常简单的DataFrame，例如3列和3行。nameID|age| Code||2123 | 80| 4553|+------+---+-----+import org.apache.spark.sql._ object ejemploApp extendsStructField("

浏览 2提问于2017-12-04得票数 1

回答已采纳

1回答

Spark-SQL中需要TRUE和FALSE列

我正在尝试为Spark SQL DataFrame编写一个多值过滤器。我有：val field: String // The field of interest我正在试着想出过滤器的规格。目前，我有： val filter = values.map(value

浏览 5提问于2017-02-14得票数 5

回答已采纳

2回答

如何使用pyspark和shc(spark* hbase连接器)从hbase读取一个表的部分数据，而不是整个数据集？*

、、

这个表有大量的记录，但是我的spark集群只有三台服务器，性能很差。我认为从hbase表中读取全部数据，然后用spark的过滤器处理它是不合理的，那么我如何使用pyspark和shc从hbase中读取部分数据呢？例如，我希望筛选行键具有起始值、结束值或筛选列from pyspark.sql import SparkSession df = spark.sparkCo

浏览 1提问于2019-07-20得票数 0

1回答

Snowflake : SQL访问控制错误:权限不足，无法对架构进行操作

、、

我已经编写了aws glue job，我试图将雪花表作为spark数据帧读取，并尝试将spark数据帧写入snowflake表。在这两种情况下，我的工作都无法显示“操作模式的权限不足”。但是当我在雪花cli上直接写insert语句时，我能够插入数据。所以基本上我有插入权限。那么，当我尝试从dataframe中插入数据或从snowflake表中读取数据作为dataframe时，我的作业为什么会失败呢？下面是我将数据写入雪花表的代码。" : &

浏览 0提问于2019-02-09得票数 0

1回答

在阅读电火花数据时过滤雪花表的行

、

那么，是否有一种方法可以应用于在中读取雪花表时对行进行过滤(我不想在内存中读取整个雪花表，因为它没有效率)，还是需要读取整个雪花表(在中)，然后应用筛选器获取以下内容的最新快照？SNOWFLAKE_SOURCE_NAME = "net.snowflake.spark.snowflake"snowflake_schemasfDatabase": snowflake_database, "sfSchema"

浏览 2提问于2022-03-16得票数 0

回答已采纳

2回答

spark scala问题上传csv

、、、

首先:我尝试将csv上传到DataFrame，但这个csv有一些空字段...我没有找到一个方法去做。我发现有人在另一篇文章中使用：但是它给我一个错误提示：“未能为数据源加载类: com.databricks.spark.csv” 然后我上传了文件，并将其作为文

浏览 0提问于2015-07-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

相同的代码从不同的运行中返回不同的结果

读取json列和直接数据值列

火花过滤器从来没有应用于DataFrame在Java

如何强制Spark只执行一次转换？

表的行筛选器无效

从Spark GroupedData对象中选择随机项目

是否有可能在Spark中为随机森林建立一个通用的训练管道？

PySpark:随机化数据帧中的行

从S3运行Spark作业会产生随机的输入大小值

从case类创建DataFrame

将spark* DataFrame转换为pandas DF*

找不到用于通过Kafka流式传输mongo db数据的数据集中存储的类型的编码器

Spark2.2中多列不工作的DataFrame过滤器&&操作符(scala)

如何创建具有随机值的简单DataFrame

Spark-SQL中需要TRUE和FALSE列

如何使用pyspark和shc(spark* hbase连接器)从hbase读取一个表的部分数据，而不是整个数据集？*

Snowflake : SQL访问控制错误:权限不足，无法对架构进行操作

在阅读电火花数据时过滤雪花表的行

spark scala问题上传csv

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐