将Spark DataFrame过滤器与列名列表一起使用_将casefold()与dataframe列名和.contains方法一起使用_将pathlib与dataframe一起使用 - 腾讯云开发者社区

scala、apache-spark、apache-spark-sql

我必须使用List[String]过滤Spark DataFrame中的非空列值 val keyList = List("columnA", "columnB", "columnC", "columnD对于名为key的单个列，语法应为： val nonNullDf = df.filter(col("key").isNotNull) 我的问题是如何在前面的过滤器中使用keyList？

浏览 16提问于2021-04-19得票数 1

回答已采纳

1回答

用于云扳手的Simba JDBC驱动程序与Spark读取器一起使用

apache-spark、apache-spark-sql、google-cloud-platform、google-cloud-spanner

当我试图将simba驱动程序与Spark的JDBC读取器一起使用时，为了将查询输出读取为DataFrame，但是它提供了错误的输出。Simba驱动程序时，这个查询会获取正确的数据，但是当我将它与Spark的JDBC读取器一起使用时，它将无法获取数据。|+------+--------+ 正如我们所看到的，它正在返回正确的元数据和行数，但是，行包含列名。下面是我<

浏览 0提问于2017-06-29得票数 3

回答已采纳

1回答

将PySpark DataFrames写入MySQL时的最佳实践

python、mysql、pyspark、apache-spark-sql、airflow

我试图开发几个数据管道使用Apache气流与预定的火花作业。df_tsv = spark.read.csv(tsv_file, sep=r'\t', header=True) df_tsv.write.jdbc其次，我想知道将数据从Spark写入数据库(如MySQL )时的最佳实

浏览 2提问于2021-10-28得票数 1

回答已采纳

1回答

大数据结构

bigdata

empColumns = ["emp_id"，"name"，"superior_emp_id"，"year_joined"，\模式= spark.createDataFrame”，10)，\] deptCo

浏览 2提问于2021-10-28得票数 0

1回答

星星之火-如何基于模糊名称获取所有相关列

python、scala、dataframe、apache-spark、apache-spark-sql

目标是使用product_name作为键查找所有相关信息。问题是，有时它被称为prod_name或其他类似的名称。我试图在不显式地将它们连接在一起的情况下自动化这个过程，因为有许多这样的表，而且我不知道所有确切的表/col名称。基本上，我试图从这些蜂巢表中提取与product_name相关的所有信息。

浏览 1提问于2021-08-28得票数 0

回答已采纳

1回答

Pandas:来自另一个DataFrame的带条件的新DataFrame

python、pandas

我有以下DataFrame： A | B | C | D0 | 2 | 5 | 2 1 |1 | 2 | 1 我想要一个新的DataFrame，它只接受列B, C，但只接受其中的A == 1。

浏览 7提问于2020-09-18得票数 1

回答已采纳

1回答

如何在pyspark中将RDD的元素组合和收集到一个列表中

python、pyspark、spark-dataframe、pyspark-sql

我正在使用Apache Spark for python，并创建了一个以名称、纬度、经度作为列名的spark dataframe。我的RDD dataframe格式如下：S 1.6但是，我需要将纬度和经度值一起收集到以下形式的列表中： [[1.3,22.5],[1.6,22.9],[1.7,23.4]...

浏览 4提问于2017-07-04得票数 3

回答已采纳

1回答

仅使用Spark时广播变量的使用

scala、apache-spark、apache-spark-sql

当使用spark时，我们可以使用广播变量来优化火花分配不变状态的方式。这个假设正确吗？假设我有一组允许的值。[Set[String]] rdd.filter(row

浏览 0提问于2020-11-04得票数 3

回答已采纳

2回答

如何在PySpark中制作列名词典？

python、dataframe、apache-spark、dictionary、pyspark

例如：StudentId -> STUDENT_IDS_StudentIDSTUDENT_ID

浏览 2提问于2022-11-02得票数 1

回答已采纳

3回答

Spark -将平面数据帧映射到可配置的嵌套json模式

json、scala、apache-spark、case-class

我想嵌套它们，并将其转换为嵌套的dataframe，这样我就可以将其写入拼图格式。但是，我不想使用case类，因为我要尽可能保持代码的可配置性。我被这部分卡住了，需要一些帮助。count of banana": 0 "vegetables": { "count of onion": 0} 我尝试在sparkdataframe中使用" map

浏览 14提问于2019-04-25得票数 0

回答已采纳

1回答

访问dataframe的列名

scala、dataframe、apache-spark

在这里，我可以生成列值，这个值与相关的列名连接在一起，例如，我提供的解决方案：。然后，说明如下：import spark.implicits._ 那么，如果(仅仅)为了争论， I还想检查实际<e

浏览 3提问于2019-12-25得票数 1

回答已采纳

2回答

在SparkR 1.5.0中，如何在公共列的联接之后明确指定列？

r、apache-spark、apache-spark-sql、sparkr

我在一个同名的列上加入了两个dataframe。oe = join(orders, emp, orders$EmployeeID == emp$EmployeeID)oe$EmployeeID invokeJava中的错误(isStatic= FALSE，obj

浏览 3提问于2015-09-30得票数 1

回答已采纳

1回答

我正在将多个csv文件作为列表读取到pandas数据框中，然后将它们连接在一起。第一个文件中的所有文件都有不同的列名，但我希望将这些名称转换为与第一个文件相同的名称，这样我就可以相对于相同的列名按行组合它们。我可以将它们称为列表，如下所示： dfs = (pd.read_csv(f) for f in x) 但是，当我将它们连接在一起时，数据框将两列合并在一起，以下是结果的示例数据： fs = pd

浏览 7提问于2021-07-11得票数 0

回答已采纳

2回答

如何在不从DataFrame转换和访问数据集的情况下向Dataset添加列？

scala、apache-spark

我知道使用.withColumn()向星火.withColumn()添加新列的方法，以及返回DataFrame的UDF。我还知道，我们可以将结果DataFrame转换为DataSet。我的问题是：如何在地图、

浏览 1提问于2016-11-15得票数 11

回答已采纳

1回答

配置单元:外部表输出结果为空

hive

浏览 14提问于2017-08-10得票数 0

7回答

如何在spark的数据中“负选择”列

scala、apache-spark、dataframe、apache-spark-sql

="B")) 结果：我做错了什么？

浏览 21提问于2015-07-15得票数 22

回答已采纳

1回答

为什么udf调用dataframe不起作用？

scala、apache-spark

用户定义的函数如下所示，它将df中的"color“列替换为字符串长度：我将udfscala> x.show|UDF(color)|| 8|+----------+scala> val x = df.select(&quo

浏览 0提问于2018-11-06得票数 2

回答已采纳

2回答

使用Flambo时，在DataFrame中找不到选择方法的匹配方法

apache-spark、clojure、apache-spark-sql、spark-dataframe、flambo

我正在使用与Spark一起工作。我想检索一个包含给定列名的。IllegalArgumentException未找到匹配方法:为类org.apache.spark.sql.DataFrame clojure.lang.Reflector.invokeMatchingMethod

浏览 3提问于2016-03-16得票数 1

回答已采纳

1回答

火花过滤器未按预期工作..“‘Column”对象不可调用

apache-spark、dataframe、filter、pyspark、pyspark-sql

当在Spark Dataframe上的过滤器中使用"and“子句时，它返回Spark.SQL.Column而不是Spark Dataframe。但在一个条件下，它工作得很好。如何show()或迭代通过Spark Sql列对象？尝试show()函数时抛出错误- 'Column' object not callable.或者如何将Spark.SQL.Column转换为Spark</e

浏览 1提问于2019-04-23得票数 0

1回答

如何对dataframe.expect方法的列进行排序

apache-spark、apache-spark-sql、spark-streaming、spark-dataframe

我正在尝试在Spark中实现SQL减去行为，这里有2个JSON people1.json和people2.json使用相同的数据{"name":"xyz","age":20}val dfpeople1 = spark.read.json("/tmp/people1.json") val dfpeop

浏览 1提问于2017-03-27得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云