我有一个具有1100万行和10列的DataFrame。每一列都是一个元素列表(可以是一个空列表,也可以是一个包含最多5个元素的列表)。假设我有另一个包含100000个元素的lsit,我只想过滤DataFrame中的那些行,对于这些行,给定的列(比如columnA)包含了我的100000个元素的大列表中的任何元素。这是我目前的代码:
df = df[df["columnA"].apply(lambda x: any(value in valuesList for value in x))]
但是计算它需要花费大量的时间。我怎样才能加快代码的速度?
我是Scala新手,在这个用例中苦苦挣扎,我有一个名称列表,我需要搜索这些名称中的任何一个,我是DataFrame的一个特定列。
我的DataFrame有两列,如下所示:
no. |description
12342|my name is jack
2345 |daniel is my neighbour
2122 |his wife sofia is my schoolmate
我有一个名称列表,比如名称列表{"jack","daniel"},现在我需要遍历DataFrame的description列,看看列表中的任何单词是否存在于description列
请不要将此问题标记为重复。我已经检查了下面的问题,它给出了python或scala的解决方案。和for java的方法是不同的。How to replace null values with a specific value in Dataframe using spark in Java? 我有一个数据集Dataset<Row> ds,它是我通过读取拼图文件创建的。因此,所有列值都是字符串。其中一些值为空。我使用.na().fill("")将null值替换为空字符串 Dataset<Row> ds1 = ds.na().fill(""
我正试图将数据格式插入卡桑德拉:
result.rdd.saveToCassandra(keyspaceName, tableName)
然而,一些列值是空的,因此我得到了异常:
java.lang.NumberFormatException: empty String
at sun.misc.FloatingDecimal.readJavaFormatString(FloatingDecimal.java:1842)
at sun.misc.FloatingDecimal.parseFloat(FloatingDecimal.java:122)
at java.lang.Float.pars
enter code here我正在练习在数据仓库中添加一个列表。我可以开发udf并注册,然后在dataframe上应用,但我想尝试一种不同的方法,即提取list from dataframe col和它们map it,然后在新列中提取readd to the original dataframe。
val df = spark.createDataFrame(Seq(("A",1),("B",2),("C",3))).toDF("Str", "Num")
+---+---+
|Str|Num|
+---+---+
我想比较几对pandas数据格式中的一个列,并将共享值写入一个空列表中。我已经编写了一个函数,它可以用一对数据文件来完成这个任务,但是我似乎无法将它放大。
def parser(dataframe1,dataframe2,emptylist):
for i1 in dataframe1['POS']:
for i2 in dataframe2['POS']:
if i1 == i2:
emptylist.append(i1)
其中'POS
我正在寻找一种方法来计算一些统计数据,例如,使用Scala计算星火中几个选定列的平均值。考虑到data对象是我的DataFrame,很容易计算出一列的平均值。
data.agg(avg("var1") as "mean var1").show
此外,我们还可以很容易地计算按其他列的值编制的平均交叉表,例如:
data.groupBy("category").agg(avg("var1") as "mean_var1").show
但是,我们如何计算DataFrame中列列表的平均值?我试着做这样的事,但没成功:
s
我正在尝试用多个不同大小的列表填充两个pandas列。举个例子,我有一个列表,第一列是“血管成形术,主动脉,动脉”,第二列是"251,2882,401,4019,412“ 首先,我尝试像这样附加每个列表: matches.code_matches.append(code_series) 这就产生了这个TypeError: TypeError: cannot concatenate object of type '<class 'list'>'; only Series and DataFrame objs are valid 因此,我尝试将
我在Apache Spark SQL中有一个DataFrame,我想删除所有not None值都相同的列。 所以在一个虚拟的例子中 df
| A | B | C |
1 2 3
NaN 2 4
1 2 NaN
1 2 5 我只想保留C列 df_filter
| C |
3
4
NaN
5 在Python中,我将通过以下方式完