过滤出pyspark RDD中的非数字值

文章/答案/技术大牛

发布

1回答

、、、、

,"Unkown"],["2213/987","City","1197", ]] 我想分别为第二个条目(City/Metro)中的每个不同值计算每行(1000,2000等)最后一个值的平均值和最大值。我使用以下代码来收集&quo

浏览 23提问于2020-08-23得票数 0

回答已采纳

1回答

rdd.histogram给出"can not generate bucket with non-number in RDD“错误

、

使用以下单列数据框架， from pyspark.sql import SparkSessiondf.show() | _1|| 1|| 3|| 5| +---+ 使用rdddf.rdd.histogram(2) 然后我得到一个错误:无法在RDD</e

浏览 31提问于2019-06-10得票数 5

回答已采纳

1回答

Pyspark：“rdd”对象没有属性“平面映射”

、、、

我是刚接触过Pyspark的人，我实际上是在尝试用Pyspark对象构建一个平面图。但是，根据文档，即使这个函数显然存在于吡火花RDD类中，我也无法使用它并得到以下错误：我在下面一行中调用后一个函数： my_rdd = my_rdd.flatmap(lambda r: (r[5].s

浏览 2提问于2018-10-28得票数 4

回答已采纳

2回答

如何将2个RDDs的列从单个RDD中添加到其中，然后根据PySpark中的日期数据进行行聚合

、、、、

我在PySpark中有两个PySpark：[(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00RDD2:两个RDDs都有相同的<em

浏览 7提问于2015-12-07得票数 5

1回答

使用lambda表达式理解map()函数的概念

、、

rdd.map(lambda x : (x[1],0))

浏览 2提问于2022-04-19得票数 -2

回答已采纳

1回答

使用PySpark根据列名及其数值过滤spark RDD

、、、、

问题是我的RDD有大约100万个观察值和大约33列。我基于数值阈值('Time')来拆分RDD。时间变量采用数字格式(double) (非posix)。以下是Scala的源代码：val splitTime = data.stat.approxQuantile("Time", Arraydata.filter(s"Time<$

浏览 6提问于2017-12-13得票数 0

1回答

Scala案例方法在火花放电中的应用

、

在scala中，当我有一个类似于：List(("a",1),("a",2),("b",3),("b",4),("b",5),("a",6))的RDD列表时，我想要计算每个字符的avg数。与a一样，它以1+2+6 = 9的值显示了3次，因此我希望得到的结果是(a, 3)。然而，我怎样才能向火星之火解释这个案例(数字/计数)？

浏览 5提问于2021-12-24得票数 0

回答已采纳

1回答

pyspark不适用于regex

、

我已经从一个带有urls列表的文件中创建了RDD：现在，我尝试使用包含'net.com‘的所有行创建另一个RDD，该字符串以非数字或字母符号开头我的意思是包括带有.net.com或\tnet.com的行，排除internet.com或cnet.com。如何让pyspark shell与regex一起工作？

浏览 1提问于2016-06-15得票数 1

2回答

PySpark评价

、、

我正在尝试下面的代码，它向RDD中的每一行添加一个数字，并使用PySpark返回RDD的列表。from pyspark.context import SparkContextsc = SparkContextrange(4)] print splits[0].co

浏览 5提问于2016-06-28得票数 6

回答已采纳

1回答

火花放电rdd分裂问题

、、

我试图从rdd中筛选值为"01-10-2019“的 print(" ### count of rdd_201901001:",rdd_201901001.

浏览 5提问于2020-02-08得票数 1

回答已采纳

1回答

电火花hive_table数据处理错误

、、、

我正在用Spark2.1.1用木星写东西from pyspark.ml.feature import MinMaxScalerbatch2 = batch1.rdd.map(lambda row: Vectors.dense(row.field1))for recor

浏览 2提问于2019-10-25得票数 0

1回答

使用spark python按键从json字典RDD中选择字典条目并对其进行分组

、、、、

我想从RDD中的每个条目(json对象)中选择和分组特定的键/值对，并对它们进行分组，然后收集它们。例如: RDD中的每个条目包含许多(键:值)对，其中，the second我想从RDD中

浏览 1提问于2018-10-16得票数 0

1回答

声明字段类型和实际字段类型不匹配时生成空值的PySpark* SQLContext.createDataFrame*

、、

在PySpark (v1.6.2)中，当使用指定的模式将RDD转换为DataFrame时，值类型与模式中声明的值类型不匹配的字段将转换为null。from pyspark import SparkContextfrom pyspark.sql.types import StructType= sc.parall

浏览 27提问于2016-07-27得票数 0

回答已采纳

1回答

如何通过在python中添加2个RDD的对应元素来创建RDD

、、

所以我有两个RDD1 (假设是RDD1和RDD2)，每个都有一个数字列表。这两个列表的大小相同。我想创建一个RDD3，其中RDD3中的每个元素都是RDD1和RDD2的相应元素的相加。如何在python中使用pyspark函数完成此操作？

浏览 12提问于2020-07-10得票数 0

1回答

超长队列的spark任务是如何处理的？

、、

我使用pyspark处理多个日志文件，其中一条记录被分成多行格式，所以我选择wholeTextFiles来读取数据，然后过滤出我想要的内容。每个文件大小约800M，共有4096个文件。配置：核心代码：print file_rdd.getNumPartitions() out_rdd</e

浏览 20提问于2019-10-28得票数 0

1回答

将键值rdd转换为仅包含值列表的rdd。

、、、

如何将键值rdd转换为只有PySpark中的值列表的rdd？假设rdd有(key1，“这是一个测试”)和(key2，“今天是周日”)，我想将这个rdd转换成一个包含(“这是一个测试”，“今天是周日”)的rdd。键值对是user_id和tweet，我希望首先标记这些tweet，并报告每个令牌的计数。然后对特定用户组执行相同的操作。都是PySpark

浏览 0提问于2018-05-20得票数 0

回答已采纳

1回答

从PySpark数据框中的重复行中提取和替换值

、、、

我有重复的行，可能包含相同的数据或在PySpark数据框中有缺失值。我写的代码非常慢，并且不能作为分布式系统工作。有谁知道如何从PySpark数据帧中的重复行中保留单个唯一值，该数据帧可以作为分布式系统运行，并且具有快速的处理时间？我已经写了完整的Pyspark代码，这个代码工作正常。(): # Match duplicates usi

浏览 25提问于2019-06-21得票数 0

1回答

传递由: PySpark引起的函数错误的java.io.EOFException映射转换

当我试图将一个函数传递给Spark的map方法时，我遇到了一些问题。我的问题似乎是在功能，但不确定它。我的功能是这样的： rowDict = row.asDict() rowDicthash_column返回一个Row()对象，或者通过将函数简化为只返回("Hello")，但仍然收到相同的错误。/sql/session.py"

浏览 34提问于2022-10-28得票数 0

5回答

pyspark: ValueError:某些类型在推断后无法确定

、、、、

spark_my_df = sc.createDataFrame(my_df) 520 rdd, schema_jvm.SerDeUtil.toJavaArray(rdd</em

浏览 1提问于2016-11-10得票数 34

3回答

PySpark: TypeError:条件应为字符串或列

、、、、

我正在尝试过滤RDD，如下所示：spark_df.filter(lambda r: str(r['target']).lambda r: str(r['target']).startswith('good')) /usr/local/spark-latest/python/pyspark

浏览 2提问于2016-10-06得票数 18

点击加载更多